HyperAIHyperAI

Command Palette

Search for a command to run...

HERO : Encodage hiérarchique pour l'apprentissage préalable omni-représentatif vidéo+langage

Linjie Li Yen-Chun Chen Yu Cheng Zhe Gan Licheng Yu Jingjing Liu

Résumé

Nous présentons HERO, un cadre novateur pour l’apprentissage omni-représentatif à grande échelle de vidéos et de langage. HERO encode les entrées multimodales selon une structure hiérarchique : le contexte local d’un cadre vidéo est capturé par un Transformer cross-modale via une fusion multimodale, tandis que le contexte vidéo global est modélisé par un Transformer temporel. En plus des objectifs classiques de modélisation du langage masqué (MLM) et de modélisation des cadres masqués (MFM), nous proposons deux nouvelles tâches d’entraînement préalable : (i) la correspondance vidéo-sous-titres (VSM), où le modèle prédit à la fois l’alignement temporel global et local ; et (ii) la modélisation de l’ordre des cadres (FOM), où le modèle prédit l’ordre correct d’une séquence de cadres vidéo mélangés. HERO est entraîné de manière conjointe sur les jeux de données HowTo100M et des jeux de données télévisuels à grande échelle afin d’acquérir une compréhension approfondie des dynamiques sociales complexes impliquant plusieurs personnages. Des expériences complètes démontrent que HERO atteint de nouveaux états de l’art sur plusieurs benchmarks dans des tâches variées, notamment la récupération vidéo basée sur le texte, la récupération de moment vidéo, la question-réponse vidéo (QA), l’inférence vidéo-langage et la génération de légendes vidéo, sur des domaines divers. Nous introduisons également deux nouveaux benchmarks exigeants, How2QA et How2R, dédiés à la question-réponse vidéo et à la récupération vidéo, constitués à partir de contenus vidéo variés et multimodaux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp