Del píxel al conocimiento: cómo la IA generativa está reinventando el OCR

En esta sesión, exploraremos las diferencias clave entre el OCR tradicional y el OCR basado en IA generativa, destacando que estos nuevos enfoques están basados en VLM (Vision-Language Models), lo que les permite no solo extraer texto, sino también comprender el contexto visual y semántico de documentos e imágenes.

Analizaremos cómo DeepSeek OCR está cambiando el paradigma del reconocimiento óptico de caracteres, junto con nuevos modelos avanzados como Mistral OCR 3, que combinan visión y lenguaje para ofrecer resultados mucho más precisos.

Además, mostraremos cómo integrar estos modelos dentro de un pipeline de Docling con el objetivo de indexar los documentos procesados en Azure Search.

Rodrigo Cabello

Principal AI Research Engineer at Plain Concepts and Microsoft MVP in Artificial Intelligence

Granada, Spain

Actions

View Speaker Profile

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.

Session

Del píxel al conocimiento: cómo la IA generativa está reinventando el OCR

Rodrigo Cabello

Links

Actions