Gerardo Vilcamiza
Senior GenAI Engineer, Docente universitario de IA
Lima, Peru
Actions
¡Hola! Mi nombre es Gerardo y soy Ingeniero Mecatrónico con una Maestría en Inteligencia Artificial Embebida. Actualmente trabajo como GenAI Engineer en la consultora tecnológica NTT DATA, liderando proyectos de IA generativa, en los que aplicamos modelos de generación de texto, audio e imágenes en soluciones para el sector bancario y asegurador de diferentes entidades por toda Latinoamérica.
También me desempeño como docente en la Universidad de Buenos Aires y en el Instituto IDAT de Perú, donde dicto cursos de Deep learning, Visión por Computadora y NLP.
Mi pasión por la IA me ha llevado a muchos lugares, siendo speaker en congresos y eventos organizados por IEEE (Institute of Electrical and Electronics Engineers) y comunidades de Python en diversos países. Esa misma pasión me motivó a empezar una carrera como investigador, centrado principalmente en cómo aplicar la IA en sistemas robóticos, drones, nanosatélites y proyectos inclusivos para distintas comunidades.
Area of Expertise
Topics
Puentes de comunicación: aplicaciones de la IA en accesibilidad para la comunidad sorda en Perú
La inteligencia artificial tiene el potencial de derribar barreras comunicativas y abrir nuevas oportunidades de inclusión. Esta charla presenta el desarrollo de DeepSignBridge, un sistema de traducción en tiempo real de lengua de señas peruana a texto, basado en modelos de visión por computadora, transformers y LLMs.
Abordaremos los principales retos técnicos del proyecto como la creación desde cero del dataset de entrenamiento, el procesamiento de secuencias de video mediante detectores de pose y mecanismos de atención, el diseño de un pipeline optimizado para funcionar en entornos reales y el posprocesamiento de texto usando LLMs. También compartiré los aprendizajes obtenidos en pruebas piloto con instituciones educativas especializadas.
Y más allá de los aspectos tecnológicos, exploraremos cómo Python, la visión por computadora y la IA generativa se convierten en aliados clave para construir soluciones inclusivas, y reflexionaremos sobre cómo proyectos de este tipo pueden escalar para beneficiar a la comunidad sorda en Perú, generando un impacto social tangible.
La audiencia se llevará una visión práctica de cómo aplicar herramientas modernas de IA a problemas inclusivos, un panorama de los desafíos que implica trabajar con datos poco explorados, y la inspiración para desarrollar proyectos que conecten tecnología y accesibilidad.
DeepSignBridge: Traductor de Lenguaje de Señas en Tiempo Real Usando Transformers y Computer Vision
Únete a nosotros en un viaje exploratorio detrás de las cámaras de “DeepSignBridge”, un sistema pionero que traduce el lenguaje de señas peruano a texto en tiempo real. Esta charla te llevará desde los cimientos de nuestro proyecto, comenzando con la exploración de arquitecturas de NLP como LSTM y GRU, pasando por las innovadoras CNN 1-D, hasta culminar en la elección de los Transformers, que revolucionaron nuestro enfoque.
Profundizaremos en los desafíos y las soluciones innovadoras en la detección de poses, destacando el uso de herramientas vanguardistas como MediaPipe y YOLO Pose, que nos permitieron capturar con precisión los gestos complejos del lenguaje de señas. Además, compartiremos nuestras experiencias comparando modelos de vanguardia como ViT y ConvNeXt, y cómo finalmente nos decidimos por MaxViT debido a su excepcional rendimiento y precisión. Además, aprenderemos como el API de ChatGPT nos puede ayudar a mejorar la traducción haciéndola más natural.
Esta charla no solo te mostrará la tecnología detrás de DeepSignBridge, sino también el impacto que la inteligencia artificial puede tener en la creación de un mundo más inclusivo. Descubre cómo la perseverancia, la innovación y la tecnología se unen para tender puentes de comunicación inclusiva.
Bases de datos para modelos generativos
Los modelos generativos, como los grandes modelos de lenguaje y los sistemas de generación de imágenes, no dependen únicamente de arquitecturas avanzadas o grandes volúmenes de cómputo. La calidad, estructura y gestión de los datos juegan un rol decisivo en su desempeño, escalabilidad y confiabilidad.
En esta charla se abordan los fundamentos y buenas prácticas en el diseño de bases de datos orientadas a modelos generativos. Se explorará cómo almacenar, versionar y consultar datos textuales, embeddings y metadatos de forma eficiente, así como el papel de bases de datos vectoriales y relacionales en arquitecturas modernas como RAG y sistemas multiagente. También se discutirán criterios clave como consistencia, trazabilidad, actualización de conocimiento y control de calidad de los datos.
La sesión está dirigida a profesionales y estudiantes de datos e inteligencia artificial que buscan comprender cómo una correcta estrategia de datos impacta directamente en la precisión, robustez y escalabilidad de soluciones basadas en modelos generativos.
Cómo la IA generativa está cambiando al mundo
Se desea abordar con los demás expertos del panel cómo la inteligencia artificial generativa está transformando industrias, redefiniendo la creatividad y cambiando la forma en que trabajamos y nos comunicamos. Se discutirán y explorarán oportunidades, riesgos y los desafíos éticos que acompañan a esta revolución tecnológica.
World Models: enseñando a las máquinas a soñar con el futuro
En esta charla exploraremos el concepto de World Models, una de las ideas más influyentes para avanzar hacia agentes verdaderamente inteligentes. A diferencia de los modelos tradicionales de reinforcement learning, los World Models permiten que una IA aprenda una representación compacta, pero realista, del mundo que la rodea y pueda simular mentalmente escenarios futuros, tal como hacemos los humanos al imaginar antes de actuar.
Revisaremos los fundamentos teóricos sobre modelos generativos de imágenes, video y dinámicas latentes, así como simuladores avanzados. Veremos cómo los nuevos trabajos (por ejemplo, Genie 3 para generación de entornos interactivos, MoSim para predicción física, y META Code World Model para razonar sobre estados de sistema) empujan los límites del concepto clásico. Analizaremos aplicaciones en robótica, videojuegos, ciencia, gemelos digitales, conducción autónoma y generación de código, señalando casos reales y escalables.
Finalmente, discutiremos los retos actuales, desde la eficiencia computacional, el error de modelado, hasta aspectos de seguridad y detección de novedad, y hacia dónde puede llevarnos esta línea de investigación en el desarrollo de agentes autónomos más eficientes, confiables y creativos.
PyCon Chile 2025 Sessionize Event
CodeOn 2025 Sessionize Event
Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.
Jump to top