Vysvětlíme, jak neuronové sítě dokáží na základě krátkých textových vstupů generovat různé výstupní formáty pomocí difuzních modelů a tzv. transformerových architektur. Zaměříme se na pokročilé technologie, jako jsou Sora nebo Midjourney.
Používané techniky, například latentní difuzní modely, nám umožňují generovat a upravovat obrázky a videa kombinací porozumění textu (pomocí mechanismu pozornosti a transformerů) a odšumovacích procesů. Detailně se podíváme na proces generování videa pomocí technologie Sora, která vizuální data komprimuje, rozděluje na jednotlivé „záplaty“ a následně je skládá do finálního videa.
Kromě Sory představíme také alternativní metody a nástroje, jako jsou RunwayML nebo SunoAI, abychom ukázali širší spektrum nástrojů pro tvorbu obrazu, zvuku a videa.
Na konci přednášky budete mít základní přehled o difuzních modelech, seznámíte se s nástroji pro generování obrazových, zvukových i video výstupů a získáte hlubší porozumění jejich fungování. Přednášku doplní praktické ukázky a demonstrační příklady.
Vystupující: Thomas Endres, Martin Förtsch, Jonas Mayer