HyperAIHyperAI

Command Palette

Search for a command to run...

InternVideo : Modèles fondamentaux vidéo généraux par apprentissage génératif et discriminatif

Résumé

Les modèles fondamentaux ont récemment montré des performances excellentes sur une variété de tâches en aval dans le domaine de la vision par ordinateur. Cependant, la plupart des modèles fondamentaux existants se concentrent simplement sur l'adaptation et la préformation au niveau des images, ce qui est limité pour les tâches de compréhension vidéo dynamiques et complexes. Pour combler cette lacune, nous présentons des modèles fondamentaux vidéo généraux, InternVideo, en tirant parti de l'apprentissage vidéo auto-supervisé à la fois génératif et discriminatif. Plus précisément, InternVideo explore efficacement le masquage de vidéos et l'apprentissage contrastif vidéo-langue comme objectifs de préformation, et coordonne de manière sélective et apprenante les représentations vidéo de ces deux cadres complémentaires pour améliorer diverses applications vidéo. Sans artifices superflus, InternVideo atteint des performances d'état de l'art sur 39 jeux de données vidéo couvrant des tâches variées, notamment la reconnaissance/détection d'actions dans les vidéos, l'alignement vidéo-langue et les applications vidéo du monde ouvert. En particulier, nos méthodes obtiennent une précision top-1 de 91,1 % et 77,2 % sur les benchmarks difficiles Kinetics-400 et Something-Something V2, respectivement. Tous ces résultats démontrent efficacement la généralité de notre InternVideo pour la compréhension des vidéos. Le code sera publié sur https://github.com/OpenGVLab/InternVideo .


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp