Más allá de 'Se ve bien': La Guía Esencial Para Evaluaciones de LLMs

Las aplicaciones de IA Generativa tienen un potencial increíble, pero su naturaleza no determinística hace que la evaluación de calidad sea un desafío. ¿Cómo superar las verificaciones subjetivas de "se ve bien" para garantizar que tu aplicación de IA Generativa sea confiable? Esta sesión L200 es tu guía esencial para las evaluaciones de LLM. Vamos a explorar qué son las evaluaciones, cómo pueden testear respuestas no determinísticas, los diferentes tipos de evaluaciones (métricas automatizadas, revisión humana y LLM-como-Juez) y cómo implementarlas utilizando DeepEval y Amazon Bedrock Evaluations. Vas a aprender cómo implementar evaluaciones y cómo integrarlas en pipelines de CI/CD para garantizar la calidad continua, para que puedas construir aplicaciones de IA Generativa confiables.

Guille Ojeda

Cloud Software Architect @ Caylent

Córdoba, Argentina

Actions

View Speaker Profile

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.

Session

Más allá de 'Se ve bien': La Guía Esencial Para Evaluaciones de LLMs

Guille Ojeda

Links

Actions