Session

Créer un podcast à plusieurs locuteurs avec Gemini 2.0 et la synthèse vocale

Cette session montre comment utiliser l'API Gemini dans Vertex AI pour générer un podcast attrayant à plusieurs locuteurs en utilisant des voix de studio dans l'API Text-to-Speech.

Cela peut être utile pour créer des interviews, des récits interactifs, des jeux vidéo, des plateformes d'apprentissage en ligne et des solutions d'accessibilité.

Les étapes à suivre sont les suivantes

Chargement d'un fichier PDF à partir d'un panier Google Cloud Storage ou d'une URL publique.
Résumer le contenu à l'aide de Gemini 2.0 Flash
Renvoi d'un schéma JSON prédéfini à l'aide de la génération contrôlée
Créer une conversation à plusieurs interlocuteurs à partir du script JSON en utilisant la synthèse vocale.
Générer l'audio sous forme de fichier MP3.

Arthur Kaza

Head of Data Analytics & Tech Support @Akieni (Yao Corp)

Kinshasa, Democratic Republic of the Congo

Actions

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.

Jump to top