InternVideo : Modèles fondamentaux vidéo généraux par apprentissage génératif et discriminatif

Les modèles fondamentaux ont récemment montré des performances excellentes sur une variété de tâches en aval dans le domaine de la vision par ordinateur. Cependant, la plupart des modèles fondamentaux existants se concentrent simplement sur l'adaptation et la préformation au niveau des images, ce qui est limité pour les tâches de compréhension vidéo dynamiques et complexes. Pour combler cette lacune, nous présentons des modèles fondamentaux vidéo généraux, InternVideo, en tirant parti de l'apprentissage vidéo auto-supervisé à la fois génératif et discriminatif. Plus précisément, InternVideo explore efficacement le masquage de vidéos et l'apprentissage contrastif vidéo-langue comme objectifs de préformation, et coordonne de manière sélective et apprenante les représentations vidéo de ces deux cadres complémentaires pour améliorer diverses applications vidéo. Sans artifices superflus, InternVideo atteint des performances d'état de l'art sur 39 jeux de données vidéo couvrant des tâches variées, notamment la reconnaissance/détection d'actions dans les vidéos, l'alignement vidéo-langue et les applications vidéo du monde ouvert. En particulier, nos méthodes obtiennent une précision top-1 de 91,1 % et 77,2 % sur les benchmarks difficiles Kinetics-400 et Something-Something V2, respectivement. Tous ces résultats démontrent efficacement la généralité de notre InternVideo pour la compréhension des vidéos. Le code sera publié sur https://github.com/OpenGVLab/InternVideo .