Googles neues AI-Videotool Veo 3 ist für alle verfügbar
Google hat sein neues Videosgenerierungsmodell Veo 3 am Donnerstag für alle öffentlich verfügbar gemacht. Bisher war das Werkzeug nur für Abonnenten von Gemini Ultra und über Google’s AI-gestützter Filmplattform Flow verfügbar, die auf der letzten I/O-Konferenz präsentiert wurde. Jetzt kann es von allen Google Cloud Kunden und Partnern im Vertex AI Media Studio als öffentliche Preview genutzt werden. Veo 3, das auf der jährlichen Entwicklerkonferenz I/O im vergangenen Monat vorgestellt wurde, ist in der Lage, Videos mit synchronisierter Audioabspaltung zu erstellen – eine langjährige technische Herausforderung. Wenn man das System beispielsweise auffordert, ein Video in einem belebten U-Bahnwagen zu erzeugen, kann Veo 3 das Video einschließlich künstlich generierter Hintergrundgeräusche produzieren, um Realismus zu vermitteln. Man kann sogar menschliche Stimmen generieren lassen, wie Google berichtet. Das Modell spezialisiert sich außerdem darauf, reale Physikprozesse realistisch zu simulieren, wie zum Beispiel die Flüssigkeitsdynamik von Wasser und die Bewegung von Schatten. Dies macht es zu einem potenziell wertvollen Werkzeug für Filmmacher und unterstützt Googles breiteres Ziel, nutzbare KI in kreative Industrien zu bringen. Benutzer können Videos auf Veo 3 durch natürlichsprachliche Textanweisungen erstellen und ihre Anweisungen feinjustieren, um subtile kreative Details zu modifizieren – „von der Farbe des Himmels bis hin zur genauen Art, wie die Sonne im Nachmittagslicht auf das Wasser trifft“. Diese Flexibilität wurde in einem Blog-Beitrag der Firma am Donnerstag detailliert beschrieben. Die Nutzungsmöglichkeiten – und die Herausforderungen Google betonte in seinem Blog-Beitrag, dass verschiedene Unternehmen Veo 3 bereits für die Erstellung von Kunden-Inhalten wie Social-Media-Werbung und Produktvorführungen sowie interne Materialien wie Schulungsvideos testen. Ein CEO beschrieb es als „den größten Sprung nach vorne in praktisch nutzbaren KI-Technologien für die Werbung seit dem Einstieg der generativen KI ins Mainstream im Jahr 2023“. Andere führende KI-Entwickler investieren ebenfalls massiv in Tools, die Videos aus natürlichsprachlichen Anweisungen generieren, da sie glauben, dass dies eine wichtige praktische Anwendung für generative KI sein wird. Die KI-Avatar-Firma Synthesia bietet diese Technologie beispielsweise als Weg an, Unternehmensinhalte schneller und mit weniger Ressourcen zu erstellen, indem Nutzer ihre Likeness replizieren können, um Firmenvideobotschaften zu erzeugen. Die Reaktionen unter kreativen Profis sind gemischt. Einige sehen positives Potenziale für die Zukunft der KI-unterstützten Filmmaking; der renommierte Regisseur Darren Aronofsky hat etwa eine kreative Partnerschaft mit Google DeepMind geschlossen. Ähnliche Deals wurden zwischen Lionsgate und dem KI-Start-up Runway getroffen. Andere kritisieren jedoch die wachsende Verbreitung von KI-generierten Videos in kreativen Branchen. Ein Video-Werbespot für Toys R' Us, der im letzten Jahr mit OpenAI’s Sora erstellt wurde, erhielt weitreichende Online-Belustigung. Gewerkschaften von Unterhaltungsarbeitern organisieren sich, um ihre Jobs zu schützen, während die Technologie rasch weiterentwickelt wird. Die Konkurrenz schlägt nicht nach Das hat die Tech-Unternehmen jedoch nicht daran gehindert, neue Videosgenerierungs-Tools für Marketing zu bauen und zu veröffentlichen. Anfang dieses Monats gab Amazon Ads die allgemeine Veröffentlichung seines Video Generation Tools in den USA bekannt. Meta strebt sogar noch höher und plant angeblich, jeden Schritt des Werbe-Produktionsprozesses zu automatisieren. Eine bedeutende technische Herausforderung Veo 3 ist eines der ersten Modelle eines großen Tech-Entwicklers, das künstlich generierte Videos und Audio gleichzeitig synchronisieren kann. Meta’s Movie Gen, das im Oktober veröffentlicht wurde, ist ein weiteres Beispiel. Andere Tools wie Runway’s Gen-3 Alpha ermöglichen zwar die Nachbearbeitung von künstlich generiertem Audio zu Video, aber die gleichzeitige Generierung erfordert die Rechenleistung und Ressourcen eines großen Spielers wie Google. Die Erstellung von KI-Modellen, die Video und Audio zusammenführen, ist eine schwierige technische Aufgabe und ein aktives Forschungsgebiet innerhalb der KI-Branche. Beide, künstlich generierte Videos und Audio, sind separate technische Herausforderungen, und ihre Fusion bringt eine neue Dimension an Komplexität mit sich. Ein Video besteht aus einer Reihe von Stillbildern, während Audio eine kontinuierliche Welle ist. Die Synchronisation erfordert daher Modelle, die in beiden Modi operieren können, wobei sie die sehr unterschiedlichen Zeitskalen berücksichtigen müssen. Zudem muss das KI-Modell dynamisch Variablen wie Material, Distanz und Geschwindigkeit berücksichtigen. Ein Auto, das mit 100 Meilen pro Stunde fährt, klingt beispielsweise ganz anders als eines, das mit 10 Meilen pro Stunde unterwegs ist; ein Pferd, das auf Kopfsteinpflaster geht, klingt anders als eines, das auf Gras läuft. Insgesamt bietet Veo 3 ein vielversprechendes Tool, das die Grenzen der generativen KI in der Videoproduktion erweitert. Es zeigt, dass Google immer noch an der Spitze der KI-Entwicklung steht, obwohl die Konkurrenz zunimmt. Die zunehmende Verbreitung solcher Technologien in kreativen Branchen birgt sowohl Chancen als auch Risiken, insbesondere hinsichtlich der Arbeitsplätze von Kreativen. Dennoch bleibt zu hoffen, dass KI-Tools wie Veo 3 letztendlich dazu beitragen, die Kreativität zu fördern und nicht zu ersetzen.