InternVideo2: Skalierung von Grundmodellen für multimodales Videoverstehen

Wir stellen InternVideo2 vor, eine neue Familie von Video-Grundmodellen (ViFM), die den aktuellen Stand der Technik in Videoerkennung, Videotextaufgaben und videozentrierten Dialogen erreicht. Unser Kernkonzept ist ein fortschreitender Trainingsansatz, der maskiertes Video-Modellieren, multimodales kontrastives Lernen und die Vorhersage des nächsten Tokens vereint, wobei die Größe des Videoencoders auf 6 Milliarden Parameter skaliert wird. Auf Datenebene legen wir den Schwerpunkt auf räumlich-zeitliche Konsistenz durch semantisches Segmentieren von Videos und Erstellen von Video-Audio-Sprechunterschriften. Dies verbessert die Ausrichtung zwischen Video und Text. Durch umfangreiche Experimente bestätigen wir unsere Konzepte und zeigen überlegene Leistungen bei mehr als 60 Videound Audiotaufgaben. Bemerkenswert ist, dass unser Modell auf verschiedenen Benchmarks für videobezogene Dialoge und das Verstehen langer Videos andere Modelle übertrifft, was seine Fähigkeit zur Analyse und zum Verstehen längerer Kontexte unterstreicht. Der Quellcode und die Modelle sind unter https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/ verfügbar.