Reinforcement Learning from Human Feedback para LLMs con Python

La sesión presenta los conceptos del aprendizaje reforzado basado en retroalimentación humana (RLFH), como técnica clave para alinear los resultados de los modelos LLM.
Se explicará el proceso y el flujo de trabajo de la técnica del RLFH y la creación de señales de recompensa (Reward Signals), utilizando Python y Google Cloud.

Oscar Cariceo

Ingeniero de Software, USM, Kintu

Santiago, Chile

Actions

View Speaker Profile

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.

Session

Reinforcement Learning from Human Feedback para LLMs con Python

Oscar Cariceo

Links

Actions