Chain-of-Frames: Fortschritte im Verständnis von Videos in multimodalen LLMs durch rahmenbewusstes Schlussfolgern
Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

Abstract
Neuere Arbeiten haben gezeigt, dass die Leistung von Großsprachmodellen (Large Language Models, LLMs) über verschiedene Aufgaben hinweg erheblich verbessert werden kann, wenn die Modelle dazu angeregt werden, vor der Beantwortung einer Benutzeranfrage Schlussfolgerungsspuren in natürlicher Sprache zu generieren. Dieser Ansatz wurde auf multimodale LLMs erweitert, bei denen die Modelle Ketten von Gedankengängen (Chain-of-Thoughts, CoT) zu Inhalten von Eingabebildern und -videos erstellen können. In dieser Arbeit schlagen wir vor, Video-LLMs zu entwickeln, deren Schlussfolgerungsschritte auf bestimmten Videoframes basieren und diese explizit referenzieren. Dazu erstellen wir zunächst CoF-Data, eine große, vielfältige Datensammlung mit unterschiedlichen Fragen, Antworten sowie entsprechenden, auf Videoframes basierenden Schlussfolgerungsspuren zu sowohl natürlichen als auch synthetischen Videos, die sich über verschiedene Themen und Aufgaben erstrecken. Anschließend fine-tunen wir bestehende Video-LLMs auf dieser Chain-of-Frames-(CoF)-Datenbasis. Unser Ansatz ist einfach und selbstständig und erfordert im Gegensatz zu bestehenden Ansätzen zur Erzeugung von Video-CoT keine zusätzlichen Netzwerke zur Auswahl oder Beschreibung relevanter Frames. Wir zeigen, dass unsere auf CoF basierenden Modelle in der Lage sind, Schlussfolgerungsspuren zu generieren, die präzise auf die entscheidenden Frames verweisen, um die gestellte Frage zu beantworten. Dies führt wiederum zu einer verbesserten Leistung in mehreren Benchmarks für Video-Verständnis, beispielsweise übertrifft unser Modell führende Video-LLMs bei Video-MME, MVBench und VSI-Bench und reduziert signifikant die Rate von Halluzinationen. Der Quellcode ist unter diesem Link verfügbar: this http URL.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.