HyperAIHyperAI
il y a 17 jours

MuLTI : Compréhension efficace vidéo-langage grâce à un échantillonneur multi-voies guidé par le texte et un modèle à choix multiples

Jiaqi Xu, Bo Liu, Yunkuo Chen, Mengli Cheng, Xing Shi
MuLTI : Compréhension efficace vidéo-langage grâce à un échantillonneur multi-voies guidé par le texte et un modèle à choix multiples
Résumé

La compréhension vidéo-langage présente de nombreuses applications industrielles, telles que la réponse à des questions sur des vidéos, la recherche texte-vidéo et la classification multi-étiquettes. Les méthodes actuelles de compréhension vidéo-langage s'appuient généralement sur des encodeurs multimodaux lourds et des modules de fusion de caractéristiques, ce qui entraîne des coûts computationnels élevés. En particulier, elles peinent à traiter des séquences de cadres vidéo denses ou des textes longs, courants dans les applications industrielles. Ce papier propose MuLTI, un modèle de compréhension vidéo-langage à la fois hautement précis et efficace, capable d'assurer une fusion de caractéristiques efficace et efficace, ainsi qu'une adaptation rapide aux tâches en aval. Plus précisément, nous avons conçu un échantillonneur MultiWay guidé par le texte, basé sur une carte résiduelle adaptative par pooling et des modules d'attention auto, pour échantillonner des séquences longues et fusionner les caractéristiques multimodales. Cette approche réduit les coûts computationnels et résout le dégradé de performance causé par les échantillonneurs précédents. Ainsi, MuLTI peut traiter des séquences plus longues tout en restant limité en ressources computationnelles. Ensuite, afin d'améliorer davantage les performances du modèle et de combler le manque de tâches d'entraînement préalable dans la réponse aux questions sur vidéo, nous proposons une nouvelle tâche d'entraînement préalable appelée Modélisation à choix multiples. Cette tâche réduit l'écart entre l'entraînement préalable et les tâches en aval, et améliore la capacité du modèle à aligner les caractéristiques vidéo et textuelles. Grâce au module de fusion de caractéristiques efficace et à la nouvelle tâche d'entraînement préalable, MuLTI atteint des performances de pointe sur plusieurs jeux de données. Les implémentations et les modèles préentraînés seront rendus publics.