InternVideo2 : Évolution des modèles de fondation pour la compréhension multimodale des vidéos

Nous présentons InternVideo2, une nouvelle famille de modèles fondamentaux vidéo (ViFM) qui atteignent des résultats d'avant-garde dans la reconnaissance vidéo, les tâches vidéo-texte et le dialogue centré sur la vidéo. Notre conception centrale est une approche d'entraînement progressive qui unifie le masquage du modèle vidéo, l'apprentissage contrastif intermodal et la prédiction du prochain jeton, en augmentant la taille de l'encodeur vidéo à 6 milliards de paramètres. Au niveau des données, nous privilégions la cohérence spatio-temporelle en segmentant sémantiquement les vidéos et en générant des légendes vidéo-audio-parole. Cela améliore l'alignement entre la vidéo et le texte. Par le biais d'expériences approfondies, nous validons nos conceptions et démontrons des performances supérieures sur plus de 60 tâches vidéo et audio. Notamment, notre modèle surpasse les autres sur diverses benchmarks de dialogue lié à la vidéo et de compréhension de vidéos longues, soulignant sa capacité à raisonner et à comprendre des contextes plus longs. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/.