InternVideo2.5: Video-MLLMs mit langer und reicher Kontextmodellierung stärken

Dieses Papier zielt darauf ab, die Leistung von videobasierten multimodalen großen Sprachmodellen (MLLM) durch Modellierung langer und reicher Kontexte (LRC) zu verbessern. Im Rahmen dieser Arbeit wurde eine neue Version von InternVideo2.5 entwickelt, die sich auf die Steigerung der Fähigkeit der ursprünglichen MLLMs konzentriert, feingranulare Details wahrzunehmen und langfristige zeitliche Strukturen in Videos zu erfassen. Insbesondere integriert unser Ansatz dichte visuelle Aufgabenannotierungen in MLLMs mittels direkter Präferenzoptimierung und entwickelt kompakte räumlich-zeitliche Darstellungen durch adaptive hierarchische Token-Kompression. Experimentelle Ergebnisse zeigen, dass diese einzigartige LRC-Design die Leistung von Video-MLLMs in gängigen Videoverstehensbenchmarks (kurz und lang) erheblich verbessert, das MLLM ermöglicht, signifikant längere Videoeingaben zu speichern (mindestens 6-mal länger als die ursprüngliche Version), und spezialisierte visuelle Fähigkeiten wie Objektverfolgung und -segmentierung beherrscht. Unsere Arbeit unterstreicht die Bedeutung der Multimodalität des Kontextreichtums (Länge und Feinheit) bei der Stärkung der angeborenen Fähigkeiten von MLLMs (Fokus und Gedächtnis) und bietet neue Erkenntnisse für zukünftige Forschungen im Bereich Video-MLLM. Der Quellcode und die Modelle sind unter https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5 verfügbar.