Video-LMM Nachschulung: Ein detaillierter Einblick in die Video-Reasoning mit großen Multimodalmodellen

Die Videoverstehensforschung stellt die anspruchsvollste Front der Computer Vision dar und erfordert Modelle, die komplexe räumlich-zeitliche Beziehungen, langfristige Abhängigkeiten und multimodale Beweise verstehen und interpretieren können. Die kürzlich entstandenen Video- große Multimodale Modelle (Video-LMMs), die visuelle Encoder mit leistungsstarken decoderbasierten Sprachmodellen integrieren, haben bemerkenswerte Fähigkeiten im Bereich des Videoverstehens demonstriert. Allerdings bleibt der entscheidende Schritt, bei dem diese Modelle von grundlegenden Wahrnehmungssystemen zu komplexen Schlussfolgerungsmaschinen weiterentwickelt werden – der sogenannte Post-Training-Phase – in der Forschungsliteratur bislang fragmentiert und unzureichend strukturiert. Diese Übersichtsarbeit bietet erstmals eine umfassende Analyse der Post-Training-Methodologien für Video-LMMs und umfasst drei zentrale Säulen: Supervised Fine-Tuning (SFT) mit Chain-of-Thought, Verstärkendes Lernen (Reinforcement Learning, RL) aus überprüfbaren Zielfunktionen sowie Testzeit-Skalierung (Test-Time Scaling, TTS) durch verbesserte Inferenzrechnung. Wir präsentieren eine strukturierte Taxonomie, die die Rolle, die Wechselwirkungen sowie video-spezifische Anpassungen dieser Techniken klar macht und dabei einzigartige Herausforderungen wie zeitliche Lokalisierung, räumlich-zeitliche Grundlegung, Effizienz bei langen Videos sowie die Integration multimodaler Beweise adressiert. Durch eine systematische Analyse repräsentativer Ansätze synthetisieren wir zentrale Designprinzipien, wertvolle Erkenntnisse und Evaluationsprotokolle und identifizieren dabei kritische offene Fragen in den Bereichen Belohnungsdesign, Skalierbarkeit und Kosten-Leistungs-Optimierung. Zudem sammeln wir essentielle Benchmarks, Datensätze und Metriken, um eine rigorose Beurteilung der Wirksamkeit von Post-Training-Methoden zu ermöglichen. Dieser Survey soll Forschern und Praktikern ein einheitliches Rahmenwerk bieten, um die Fähigkeiten von Video-LMMs weiterzuentwickeln. Ergänzende Ressourcen und aktuelle Updates werden unter folgender Adresse gepflegt:https://github.com/yunlong10/Awesome-Video-LMM-Post-Training