Session
Como agilizar las tareas de conocimiento y preparación de los datos para entrenar un modelo de ML
Una de las tareas más relevantes e importantes con las que se enfrenta un Analista de datos o Data Scientist, es el de revisar y entender los datos con los que debe trabajar, durante esta fase, debe centrarse en muchas cosas, como son las distribuciones de sus datos, como limpiar los datos, ver que información es relevante y cual no, realizar gráficos que le permitan visualizar por donde atacar el dataset, etc.
Esto es un proceso que suele llevar bastante tiempo, pero hay multitud de herramientas tanto para R como en Python que nos permiten acelerar este proceso, ya que lo hacen de forma automatizada, y es lo que veremos durante la sesión, como funcionan estas herramientas y que podemos esperar de ellas tanto para el EDA como la limpieza de datos, y como no podía ser de otra forma veremos cómo funcionan un par de ellas, pero no os desvelo cuales, pero si os adelanto que una es para usar con Databricks, y otra con Synapse, el resto lo dejo a vuestra imaginación.
Roberto Navarro
Microsoft MVP IA, NTT Data, Azure Evangelist & Architect BigData/IA
Madrid, Spain
Links
Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.
Jump to top