Reasoning via Video: Die erste Evaluation der Reasoning-Fähigkeiten von Video-Modellen anhand von Labyrinth-Lösungsaufgaben

Abstract
Video-Modelle haben bei der Generierung von hochfidelitätsreichen Videos mit kohärenten Bewegungsdynamiken beachtliche Erfolge erzielt. Ähnlich wie die Entwicklung von Textgenerierung zu textbasiertem Schließen in der Sprachmodellierung veranlasst die Weiterentwicklung von Video-Modellen uns zu fragen: Können Video-Modelle über Video-Generierung schließen? Im Gegensatz zu diskreten Textkorpora verankert Video die Schlussfolgerung in expliziten räumlichen Anordnungen und zeitlicher Kontinuität, was sie zu einem idealen Fundament für räumliches Schließen macht. In dieser Arbeit untersuchen wir das Paradigma des Schließens durch Video und stellen VR-Bench vor – einen umfassenden Benchmark, der systematisch die Schlussfolgerungsfähigkeiten von Video-Modellen bewerten soll. Basierend auf Labyrinth-Lösungsaufgaben, die inhärent räumliche Planung und mehrschrittiges Schließen erfordern, enthält VR-Bench 7.920 prozedural generierte Videos über fünf Labyrinthtypen und diverse visuelle Stile. Unsere empirische Analyse zeigt, dass SFT (Supervised Fine-Tuning) die Schlussfolgerungsfähigkeit von Video-Modellen effizient hervorrufen kann. Video-Modelle demonstrieren während des Schließens eine stärkere räumliche Wahrnehmung und schneiden besser ab als führende VLMs (Vision-Language-Modelle), wobei sie zudem gut generalisieren über unterschiedliche Szenarien, Aufgaben und Komplexitätsstufen. Zudem entdecken wir einen Skalierungseffekt bei der Testzeit: Die Vielfalt der Stichproben während der Inferenz verbessert die Zuverlässigkeit des Schließens um 10–20 %. Diese Ergebnisse unterstreichen das einzigartige Potenzial und die Skalierbarkeit des Schließens durch Video für räumliche Schließungsaufgaben.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.