Command Palette
Search for a command to run...
Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer
Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Abstract
Die bemerkenswerten Zero-Shot-Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) haben die natürliche Sprachverarbeitung von spezialisierten Modellen hin zu einheitlichen, generalistischen Grundmodellen vorangetrieben. Diese Transformation basiert auf einfachen Prinzipien: großen, generativen Modellen, die auf webskaligen Daten trainiert wurden. Kurioserweise gelten dieselben Prinzipien auch für heutige generative Videomodelle. Können Videomodelle auf einem Weg zur allgemeinen visuellen Wahrnehmung stehen, ähnlich wie LLMs zur allgemeinen Sprachverarbeitung entwickelt wurden? Wir zeigen, dass Veo 3 eine Vielzahl von Aufgaben lösen kann, für die es nicht explizit trainiert wurde: Objektssegmentierung, Kantenentdeckung, Bildbearbeitung, Verständnis physikalischer Eigenschaften, Erkennung von Objektfunktionen (Affordances), Simulation des Werkzeuggebrauchs und vieles mehr. Diese Fähigkeiten zur Wahrnehmung, Modellierung und Manipulation der visuellen Welt ermöglichen bereits frühe Formen visueller Schlussfolgerung, wie das Lösen von Labyrinthen oder Symmetrieproblemen. Die sich emergierenden Zero-Shot-Fähigkeiten von Veo deuten darauf hin, dass Videomodelle auf einem Weg zu einheitlichen, generalistischen Grundmodellen der visuellen Wahrnehmung stehen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.