InternVideo: Allgemeine Video-Grundlagenmodelle durch generatives und diskriminatives Lernen

Die Grundlagenmodelle haben kürzlich auf einer Vielzahl von Downstream-Aufgaben im Bereich der Computer Vision ausgezeichnete Leistungen gezeigt. Dennoch konzentrieren sich die meisten existierenden visuellen Grundlagenmodelle einfach auf das Bildniveau-Vortraining und -Anpassung, was für dynamische und komplexe Videoverständnis-Aufgaben begrenzt ist. Um diese Lücke zu schließen, präsentieren wir allgemeine Video-Grundlagenmodelle, InternVideo, indem wir sowohl generative als auch diskriminative selbstüberwachte Video-Lernmethoden nutzen. Insbesondere erkundet InternVideo effizient maskebasierte Videomodellierung und videolinguistisches Kontrastlerning als Vortrainingsziele und koordiniert selektiv die Video-Darstellungen dieser beiden ergänzenden Frameworks auf lernfähige Weise, um verschiedene Videoanwendungen zu verbessern. Ohne zusätzliche Verfeinerungen erreicht InternVideo den aktuellen Stand der Technik auf 39 Videodatensätzen aus umfangreichen Aufgabenbereichen, einschließlich Videos-Aktionserkennung/-Detektion, videolinguistischer Ausrichtung und offener Welt-Videanwendungen. Besonders können unsere Methoden eine Top-1-Genauigkeit von 91,1 % und 77,2 % auf den anspruchsvollen Benchmarks Kinetics-400 und Something-Something V2 erzielen. All diese Ergebnisse zeigen effektiv die Universalität unseres InternVideo für das Videoverständnis. Der Code wird unter https://github.com/OpenGVLab/InternVideo veröffentlicht werden.