HyperAIHyperAI

Command Palette

Search for a command to run...

InternVideo2 : Évolution des modèles de fondation pour la compréhension multimodale des vidéos

Résumé

Nous présentons InternVideo2, une nouvelle famille de modèles fondamentaux vidéo (ViFM) qui atteignent des résultats d'avant-garde dans la reconnaissance vidéo, les tâches vidéo-texte et le dialogue centré sur la vidéo. Notre conception centrale est une approche d'entraînement progressive qui unifie le masquage du modèle vidéo, l'apprentissage contrastif intermodal et la prédiction du prochain jeton, en augmentant la taille de l'encodeur vidéo à 6 milliards de paramètres. Au niveau des données, nous privilégions la cohérence spatio-temporelle en segmentant sémantiquement les vidéos et en générant des légendes vidéo-audio-parole. Cela améliore l'alignement entre la vidéo et le texte. Par le biais d'expériences approfondies, nous validons nos conceptions et démontrons des performances supérieures sur plus de 60 tâches vidéo et audio. Notamment, notre modèle surpasse les autres sur diverses benchmarks de dialogue lié à la vidéo et de compréhension de vidéos longues, soulignant sa capacité à raisonner et à comprendre des contextes plus longs. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp