Paul Peton
Expert manager Data Science at AVANADE, Microsoft AI & Data Platform MVP
Manager expert Data Science chez AVANADE, Microsoft AI & Data Platform MVP
Nantes, France
Actions
Data Scientist with significant experience in BI self service, seeking even more value in data with tools like Statistics, Machine Learning or Dataviz. Azure fan, member and organizer of Global AI Community
Data Scientist / Engineer / Architect
Links
Area of Expertise
Topics
IA et chiffres : les bons amis font-ils de bons comptes ? en
ChatGPT ou Copilot sont-ils de bons data analysts ? Savent-ils extraire des informations pertinentes d'un jeu de données et les représenter de manière efficace ? Tombent-ils dans des pièges que nous, humains, aurions évité ? D'ici peu, serons-nous remplacés par ces assistants dits intelligents ou deviendrons nous des "cyborg analysts", humains aux capacités augmentées ?
Use Azure OpenAI service in... an Excel sheet ! en
Microsoft has provided a playground for testing models of the Azure OpenAI service, but it is difficult to move user data into this environment. And where is most of the data? In Excel, of course!
What if you could run a prompt as an Excel function and apply it to your data tables containing, for example, customer verbatims to be categorised or responses to negative reviews?
The Azure OpenAI service is consumed via an API, and the Power Query add-in for Excel is perfectly capable of calling up this service. We will look at the best practices and limitations of such an approach.
Azure Databricks et mlFlow : entrainez et versionnez vos modèles efficacement en
Le cluster Spark managé Databricks est l'environnement idéal pour travailler des volumes de données importants et stockés par exemple sur un Data Lake Azure. Les notebooks permettent de suivre simplement le bon déroulé d'un pipeline complet. Mais il ne faut pas oublier pour autant de conserver une trace des différents entrainements : hyperparamètres, modèle obtenu et serialisé par exemple en pickle, métriques de performance. Tout ceci se fait simplement à l'aide de l'outil Open Source mlFlow intégré dans Databricks. Nous verrons son usage au travers d'une démonstration complète.
Conserver une trace des différents entrainements : hyperparamètres, modèle serialisé, métriques de performance grâce à mlFlow sur Azure Databricks
Automated ML vs Data Scientist : who's (still) the best ? en
Automated ML is a game changer for Data Scientists who can now focus on features enginnering and model interpretation. How does it work in a citizen way or with the Python SDK automl.core ? What are the beneficits of this approach ? Which are the common mistakes with the User Interface and all the possibilities with the code ? Is it a too much "closed box" way ? No, because we now have time to interpret !
Demonstration with the GUI and Jupyter notebooks on a regression or classification task
IA au service de la prise de décision, les bons amis font-ils de bons comptes ? fr
Alors que la Data est le carburant de toute AI, est-ce que l’AI facilite la prise de décision, la compréhension d’un jeu de données, son enrichissement … ? ChatGPT, Gemini ou Copilot sont-ils de bons Data Analysts ? Savent-ils extraire des informations pertinentes d'un jeu de données et les représenter de manière efficace ? Tombent-ils dans des pièges que nous, humains, aurions évité ? D'ici peu, serons-nous remplacés par ces assistants dits intelligents ou deviendrons-nous des "cyborg analysts", humains aux capacités augmentées ?
Les Data Enginneer et Analysts en poste ou en cours de formation se posent légitimement toutes ces questions. Dans cette session, nous présenterons l'état de l'art de l'analytique réalisée par des modèles d'IA. Nous montrerons comment CoPilot peut aider les Data Analysts à écrire du code plus rapidement et plus facilement, en suggérant des lignes de code adaptées au contexte. Nous verrons également comment CoPilot peut générer des visualisations de données à partir de requêtes en langage naturel ou même nous assister dans l’entraînement de modèle de Machine Learning.
Enfin, nous discuterons des limites et des défis de l'IA appliquée à l'analytique, ainsi que des bonnes pratiques pour collaborer efficacement avec ces outils. Cette session s'adresse aux data Analysts, Data Scientists, Développeurs et toute personnes intéressées par l'utilisation de l'IA pour analyser et présenter des données. Les illustrations concrètes seront principalement réalisées au moyen de Microsoft Copilot et de la plateforme Microsoft Fabric.
Juges et parties : comment les LLM sont devenus des évaluateurs d'autres LLM fr
Depuis l'émergence des Large Language Models (LLM), les entreprises se sont emparées de ce nouvel outil pour développer des applications de questions / réponses autour de leur base de connaissance interne (wiki, intranet ou tout fichier texte traînant sur un lecteur réseau...), remplaçant ainsi des modules de recherche souvent défaillants.
Mais est-ce que les LLM sont véritablement efficaces pour ce type de tâche ? Pour le savoir, il faut les évaluer. Au delà des benchmarks publiés dès la sortie de chaque nouveau modèle, nous devons mettre en oeuvre une méthode d'évaluation propre au scénario d'usage, en s'appuyant sur de nouvelles métriques qui sortent du cadre traditionnel des métriques du Machine Learning. Perplexité, cohérence, BLEU, ROUGE... une quantité de nouvelles mesures ont vu le jour, mais, surprise, ce ne sont pas des formules mathématiques mais bien des prompts qui seront joués par un autre LLM, considéré alors comme un juge ! Le serpent se mordant la queue, la question de la fiabilité de ce "juge LLM" se pose inévitablement. Nous verrons dans cette session comment mettre en place de manière pragmatique une démarche la plus robuste possible pour évaluer les applications qui s'appuient sur les LLM.
MLOoops : comment faire échouer la mise en production du ML fr
Basé sur des expériences réelles (mais anonymisées), je recense de nombreux comportements qui feront inévitablement échouer l'opérationnalisation (le "Ops") du Machine Learning :
- ne pas reusiner le code des notebooks
- ne pas assurer la reproductibilité (oublier des éléments à versionner)
- ne pas bien séparer les environnements
- ne pas s'adapter aux scénarios de serving (batch ou réal time)
- ne pas surveiller la dérive du modèle
Bien sûr, toutes ces mauvaises pratiques visent à mettre en lumière les bons réflexes à adopter pour réussir l'industrialisation des PoC de Data Science.
Présentation en cours d'élaboration, construite au fur à et mesure de mes projets MLOps chez différents clients qui ne seront pas cités
Biais cognitifs et LLM : face à ChatGPT, nous restons humains malgré tout fr
Dès son lancement public, tout un chacun a tenté de débusquer les limites du modèle chatGPT (test de logique, opérations mathématiques, vérités historiques...). Au delà des performances ou des écueils de l'IA, notre manière d'interagir en dit long sur nous, êtres humains, et nos biais intrinsèques. Au cours de cette session plus psychologique que technique, nous verrons comment s'illustrent des biais comme le biais de confirmation, le biais de disponibilité, le biais de récente, etc. dans notre utilisation des Large Language Models. Soyons critiques vis-à-vis de ces nouveaux outils pour en tirer le meilleur profit, sans pour autant les traiter de « stupides perroquets stochastiques » .
Paul Peton
Expert manager Data Science at AVANADE, Microsoft AI & Data Platform MVP
Nantes, France
Links
Actions
Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.
Jump to top