vor einem Monat

Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Abstract

Die bemerkenswerten Zero-Shot-Fähigkeiten großer Sprachmodelle (Large Language Models, LLMs) haben die natürliche Sprachverarbeitung von spezialisierten Modellen hin zu einheitlichen, generalistischen Grundmodellen vorangetrieben. Diese Transformation basiert auf einfachen Prinzipien: großen, generativen Modellen, die auf webskaligen Daten trainiert wurden. Kurioserweise gelten dieselben Prinzipien auch für heutige generative Videomodelle. Können Videomodelle auf einem Weg zur allgemeinen visuellen Wahrnehmung stehen, ähnlich wie LLMs zur allgemeinen Sprachverarbeitung entwickelt wurden? Wir zeigen, dass Veo 3 eine Vielzahl von Aufgaben lösen kann, für die es nicht explizit trainiert wurde: Objektssegmentierung, Kantenentdeckung, Bildbearbeitung, Verständnis physikalischer Eigenschaften, Erkennung von Objektfunktionen (Affordances), Simulation des Werkzeuggebrauchs und vieles mehr. Diese Fähigkeiten zur Wahrnehmung, Modellierung und Manipulation der visuellen Welt ermöglichen bereits frühe Formen visueller Schlussfolgerung, wie das Lösen von Labyrinthen oder Symmetrieproblemen. Die sich emergierenden Zero-Shot-Fähigkeiten von Veo deuten darauf hin, dass Videomodelle auf einem Weg zu einheitlichen, generalistischen Grundmodellen der visuellen Wahrnehmung stehen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Videomodelle sind Zero-Shot-Lerner und -Schlussfolgerer

Thaddäus Wiedemer Yuxuan Li Paul Vicol Shixiang Shane Gu Nick Matarese Kevin Swersky Been Kim Priyank Jaini Robert Geirhos

Abstract

KI mit KI entwickeln

Hyper Newsletters