AI'll Be Back: Generative KI in Bild-, Audio- und Videoproduktionen

Dieser Vortrag führt Sie mit einem Fokus auf Text to Image und Text to Video zur Erstellung von Bildern und kurzen Videos in die Welt der generativen KI ein. Wir erklären dabei, wie neuronale Netze mittels Diffusionsmodellen und so genannten Transformer-Architekturen multimodal aus kurzen Texteingaben verschiedene Ausgabeformate erzeugen können.

Wir konzentrieren uns dabei auf fortschrittliche Technologien wie Sora oder Midjourney. Die dabei eingesetzten Techniken wie Latent Diffusion Modelle erlauben es uns, Bilder und Videos zu generieren und zu bearbeiten, indem sie Textverständnis durch Attention-Mechanismen und Transformer durch Entrauschungsprozesse verbinden.

Eine detaillierte Betrachtung des Video-Generierungsprozesses mit Sora zeigt, wie dieses visuelle Daten komprimiert, sie in Patches zerlegt und anschließend zum finalen Video rekonstruiert. Neben Sora diskutieren wir auch alternative Methoden wie Runway, um ein breites Spektrum an Tools für die Bild- und Videogeneration darzustellen.

Am Ende dieses Vortrags werden Sie ein grundlegendes Verständnis für Diffusionsmodelle besitzen, einen Überblick über Werkzeuge zur Bild- und Videogeneration sowie ein tieferes Verständnis für die Funktionsweise eines ausgewählten Tools besitzen. Praktische Beispiele und Demos runden den Vortrag ab.

* sehr viele Live-Demos
* 45min to 60min
* veröffentlicht im Juli 2024

Martin Förtsch

TNG Technology Consulting GmbH, Principal Consultant

Munich, Germany

Actions

View Speaker Profile

Please note that Sessionize is not responsible for the accuracy or validity of the data provided by speakers. If you suspect this profile to be fake or spam, please let us know.

Session

AI'll Be Back: Generative KI in Bild-, Audio- und Videoproduktionen

Martin Förtsch

Links

Actions