Align et Prompt : Pré-entraînement vidéo-langage avec des invites d'entité

La pré-formation vidéo-langage a démontré des améliorations prometteuses sur diverses tâches ultérieures. La plupart des méthodes précédentes modélisent les interactions multimodales à l’aide d’un encodeur multimodal basé sur le transformer, sans toutefois résoudre pleinement le problème d’alignement déficient entre les caractéristiques unimodales vidéo et textuelles. En outre, l’apprentissage d’un alignement visuel-langagier fin nécessite généralement l’utilisation de détecteurs d’objets standardisés pour fournir des informations sur les objets, ce qui constitue un goulot d’étranglement en raison de la vocabulaire limité de ces détecteurs et de leur coût computationnel élevé.Nous proposons Align and Prompt : un cadre efficace et performant pour la pré-formation vidéo-langage, offrant un meilleur alignement multimodal. Premièrement, nous introduisons une perte contrastive vidéo-texte (VTC) afin d’aligner les caractéristiques unimodales vidéo-texte au niveau des instances, ce qui simplifie la modélisation des interactions multimodales. Ensuite, nous proposons une nouvelle tâche de pré-formation ancrée visuellement, nommée modélisation d’entités par incitation (PEM), visant à apprendre un alignement fin entre les régions visuelles et les entités textuelles. Pour cela, nous introduisons d’abord un module d’incitation d’entités, entraîné avec la perte VTC afin de produire la similarité entre une région vidéo et des prompts textuels instanciés à partir de noms d’entités. La tâche PEM demande ensuite au modèle de prédire les pseudo-étiquettes d’entités (c’est-à-dire les scores de similarité normalisés) pour des régions vidéo sélectionnées aléatoirement. Le modèle pré-entraîné ainsi obtenu atteint des performances de pointe sur les tâches de recherche vidéo-texte et de question-réponse vidéo, surpassant significativement les approches antérieures. Notre code et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/salesforce/ALPRO.