Session

Juges et parties : comment les LLM sont devenus des évaluateurs d'autres LLM

Depuis l'émergence des Large Language Models (LLM), les entreprises se sont emparées de ce nouvel outil pour développer des applications de questions / réponses autour de leur base de connaissance interne (wiki, intranet ou tout fichier texte traînant sur un lecteur réseau...), remplaçant ainsi des modules de recherche souvent défaillants.
Mais est-ce que les LLM sont véritablement efficaces pour ce type de tâche ? Pour le savoir, il faut les évaluer. Au delà des benchmarks publiés dès la sortie de chaque nouveau modèle, nous devons mettre en oeuvre une méthode d'évaluation propre au scénario d'usage, en s'appuyant sur de nouvelles métriques qui sortent du cadre traditionnel des métriques du Machine Learning. Perplexité, cohérence, BLEU, ROUGE... une quantité de nouvelles mesures ont vu le jour, mais, surprise, ce ne sont pas des formules mathématiques mais bien des prompts qui seront joués par un autre LLM, considéré alors comme un juge ! Le serpent se mordant la queue, la question de la fiabilité de ce "juge LLM" se pose inévitablement. Nous verrons dans cette session comment mettre en place de manière pragmatique une démarche la plus robuste possible pour évaluer les applications qui s'appuient sur les LLM.

Paul Peton

Manager expert Data Science chez AVANADE, Microsoft AI & Data Platform MVP

Nantes, France

Actions

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.

Jump to top