HyperAIHyperAI

Command Palette

Search for a command to run...

EgoVLPv2 : Pré-entraînement vidéo-langage à point de vue subjectif avec fusion dans le modèle principal

Shraman Pramanick Yale Song Sayan Nag Kevin Qinghong Lin Hardik Shah Mike Zheng Shou Rama Chellappa Pengchuan Zhang

Résumé

La pré-formation vidéo-langage (VLP) est devenue de plus en plus importante en raison de sa capacité à généraliser à diverses tâches visuelles et linguistiques. Toutefois, les cadres existants de VLP égocentrique utilisent des encodeurs vidéo et linguistiques séparés, et n’apprennent les informations croisées spécifiques aux tâches qu’au moment du fine-tuning, ce qui limite le développement d’un système unifié. Dans ce travail, nous introduisons la deuxième génération de pré-formation vidéo-langage égocentrique (EgoVLPv2), une amélioration significative par rapport à la génération précédente, en intégrant directement la fusion croisée dans les modèles de base vidéo et linguistique. EgoVLPv2 apprend des représentations fortes entre vidéo et texte durant la phase de pré-formation, et réutilise les modules d’attention croisée pour soutenir efficacement et de manière flexible différentes tâches en aval, réduisant ainsi les coûts de fine-tuning. En outre, la stratégie de fusion proposée dans les modèles de base est plus légère et plus efficace en termes de calcul que l’ajout de couches supplémentaires spécifiquement dédiées à la fusion. Des expériences étendues sur une large gamme de tâches VL démontrent l’efficacité d’EgoVLPv2, qui atteint des performances de pointe de manière cohérente sur toutes les tâches en aval, surpassant ainsi de manière significative les baselines fortes. La page de projet est disponible à l’adresse suivante : https://shramanpramanick.github.io/EgoVLPv2/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp