EgoVLPv2 : Pré-entraînement vidéo-langage à point de vue subjectif avec fusion dans le modèle principal

La pré-formation vidéo-langage (VLP) est devenue de plus en plus importante en raison de sa capacité à généraliser à diverses tâches visuelles et linguistiques. Toutefois, les cadres existants de VLP égocentrique utilisent des encodeurs vidéo et linguistiques séparés, et n’apprennent les informations croisées spécifiques aux tâches qu’au moment du fine-tuning, ce qui limite le développement d’un système unifié. Dans ce travail, nous introduisons la deuxième génération de pré-formation vidéo-langage égocentrique (EgoVLPv2), une amélioration significative par rapport à la génération précédente, en intégrant directement la fusion croisée dans les modèles de base vidéo et linguistique. EgoVLPv2 apprend des représentations fortes entre vidéo et texte durant la phase de pré-formation, et réutilise les modules d’attention croisée pour soutenir efficacement et de manière flexible différentes tâches en aval, réduisant ainsi les coûts de fine-tuning. En outre, la stratégie de fusion proposée dans les modèles de base est plus légère et plus efficace en termes de calcul que l’ajout de couches supplémentaires spécifiquement dédiées à la fusion. Des expériences étendues sur une large gamme de tâches VL démontrent l’efficacité d’EgoVLPv2, qui atteint des performances de pointe de manière cohérente sur toutes les tâches en aval, surpassant ainsi de manière significative les baselines fortes. La page de projet est disponible à l’adresse suivante : https://shramanpramanick.github.io/EgoVLPv2/.