HyperAIHyperAI

Command Palette

Search for a command to run...

MuLTI : Compréhension efficace vidéo-langage grâce à un échantillonneur multi-voies guidé par le texte et un modèle à choix multiples

Jiaqi Xu Bo Liu Yunkuo Chen Mengli Cheng Xing Shi

Résumé

La compréhension vidéo-langage présente de nombreuses applications industrielles, telles que la réponse à des questions sur des vidéos, la recherche texte-vidéo et la classification multi-étiquettes. Les méthodes actuelles de compréhension vidéo-langage s'appuient généralement sur des encodeurs multimodaux lourds et des modules de fusion de caractéristiques, ce qui entraîne des coûts computationnels élevés. En particulier, elles peinent à traiter des séquences de cadres vidéo denses ou des textes longs, courants dans les applications industrielles. Ce papier propose MuLTI, un modèle de compréhension vidéo-langage à la fois hautement précis et efficace, capable d'assurer une fusion de caractéristiques efficace et efficace, ainsi qu'une adaptation rapide aux tâches en aval. Plus précisément, nous avons conçu un échantillonneur MultiWay guidé par le texte, basé sur une carte résiduelle adaptative par pooling et des modules d'attention auto, pour échantillonner des séquences longues et fusionner les caractéristiques multimodales. Cette approche réduit les coûts computationnels et résout le dégradé de performance causé par les échantillonneurs précédents. Ainsi, MuLTI peut traiter des séquences plus longues tout en restant limité en ressources computationnelles. Ensuite, afin d'améliorer davantage les performances du modèle et de combler le manque de tâches d'entraînement préalable dans la réponse aux questions sur vidéo, nous proposons une nouvelle tâche d'entraînement préalable appelée Modélisation à choix multiples. Cette tâche réduit l'écart entre l'entraînement préalable et les tâches en aval, et améliore la capacité du modèle à aligner les caractéristiques vidéo et textuelles. Grâce au module de fusion de caractéristiques efficace et à la nouvelle tâche d'entraînement préalable, MuLTI atteint des performances de pointe sur plusieurs jeux de données. Les implémentations et les modèles préentraînés seront rendus publics.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp