HyperAI

Das Paradigma „Denken mit Text“ und „Denken mit Bildern“ verbessert die Schlussfolgerungsfähigkeit großer Sprachmodelle (LLMs) und visueller Sprachmodelle (VLMs) erheblich. Diese Ansätze weisen jedoch inhärente Grenzen auf: (1) Bilder erfassen lediglich einzelne Momentaufnahmen und können dynamische Prozesse oder kontinuierliche Veränderungen nicht adäquat darstellen, und (2) die Trennung von Text und Visuellem als getrennte Modalitäten behindert eine einheitliche multimodale Wahrnehmung und Generierung. Um diese Einschränkungen zu überwinden, führen wir ein neues Paradigma ein: „Denken mit Video“, das Video-Generationsmodelle wie Sora-2 nutzt, um visuelle und textuelle Schlussfolgerung in einem einheitlichen zeitlichen Rahmen zu verbinden. Um diese Forschung zu unterstützen, haben wir den Video-Thinking-Benchmark (VideoThinkBench) entwickelt. VideoThinkBench umfasst zwei Aufgabentypen: (1) visuell zentrierte Aufgaben (z. B. „Eyeballing Puzzles“) und (2) textbasierte Aufgaben (z. B. Teilmengen von GSM8K, MMMU). Unsere Evaluation zeigt, dass Sora-2 als Schlussfolgerungsmodell geeignet ist: Bei visuell zentrierten Aufgaben erreicht Sora-2 im Allgemeinen ein Niveau vergleichbar mit aktuellen Spitzenmodellen (SOTA) von VLMs und übertrifft diese sogar bei mehreren Aufgaben, etwa bei „Eyeballing Games“. Bei textbasierten Aufgaben erzielt Sora-2 eine Genauigkeit von 92 % bei MATH und 75,53 % bei MMMU. Zudem analysieren wir systematisch die Ursachen dieser Leistungsfähigkeit. Wir stellen außerdem fest, dass Selbstkonsistenz und In-Context-Lernen die Leistung von Sora-2 weiter verbessern können. Zusammenfassend zeigen unsere Ergebnisse, dass Video-Generationsmodelle das Potenzial eines einheitlichen Modells für multimodale Wahrnehmung und Generierung besitzen und dass „Denken mit Video“ als ein integriertes Paradigma für multimodale Schlussfolgerung gilt.

Mit Video denken: Videoerzeugung als vielversprechendes multimodales Schlussfolgerungsparadigma

Jingqi Tong Yurong Mou Hangcheng Li Mingzhe Li Yongzhuo Yang Ming Zhang Qiguang Chen Tianyi Liang Xiaomeng Hu Yining Zheng

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

Mit Video denken: Videoerzeugung als vielversprechendes multimodales Schlussfolgerungsparadigma

Jingqi Tong Yurong Mou Hangcheng Li Mingzhe Li Yongzhuo Yang Ming Zhang Qiguang Chen Tianyi Liang Xiaomeng Hu Yining Zheng4 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Jingqi Tong Yurong Mou Hangcheng Li Mingzhe Li Yongzhuo Yang Ming Zhang Qiguang Chen Tianyi Liang Xiaomeng Hu Yining Zheng