ST-LLM: Große Sprachmodelle sind effektive zeitliche Lerner

Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in der Textverarbeitung und -generierung gezeigt, was Forschungsanstrengungen zur Entwicklung von Video-LLMs angeregt hat, um die Mensch-AI-Interaktion auf Videoebene zu erleichtern. Allerdings bleibt die Frage offen, wie Videos in videobasierten Dialogsystemen effektiv kodiert und verstanden werden können. In dieser Arbeit untersuchen wir eine einfache, aber bisher unerforschte Fragestellung: Können wir alle räumlich-zeitlichen Token in das LLM einspeisen, um so die Aufgabe des Videosequenzmodellierens den LLMs zu übertragen? Überraschenderweise führt dieser einfache Ansatz zu erheblichen Verbesserungen im Videoverstehen. Basierend darauf schlagen wir ST-LLM vor, eine effektive Baseline für Video-LLMs mit räumlich-zeitlicher Sequenzmodellierung innerhalb des LLMs. Zudem entwickeln wir eine dynamische Maskierungsstrategie mit maßgeschneiderten Trainingszielen, um die durch nichtkomprimierte Videotoken innerhalb der LLMs eingeführten Overhead- und Stabilitätsprobleme zu lösen. Für besonders lange Videos haben wir auch ein globales-lokales Eingabemodul konzipiert, um Effizienz und Effektivität auszugleichen. Somit nutzen wir LLMs zur kompetenten räumlich-zeitlichen Modellierung, während wir Effizienz und Stabilität gewährleisten. Ausführliche experimentelle Ergebnisse bestätigen die Effektivität unserer Methode. Durch ein kompakteres Modell und einen vereinfachten Trainingsprozess erreicht ST-LLM neue Spitzenwerte auf VideoChatGPT-Bench und MVBench. Der Quellcode ist unter https://github.com/TencentARC/ST-LLM verfügbar.