HyperAIHyperAI

Command Palette

Search for a command to run...

CAT : Amélioration d'un grand modèle de langage multimodal pour répondre aux questions dans des scénarios audiovisuels dynamiques

Qilang Ye Zitong Yu* Rui Shao Xinyu Xie Philip Torr Xiaochun Cao

Résumé

Ce document se concentre sur le défi de répondre à des questions dans des scénarios composés d'éléments audiovisuels riches et complexes. Bien que les modèles de langage multimodaux existants (MLLM) puissent répondre à du contenu audiovisuel, ces réponses sont parfois ambiguës et ne parviennent pas à décrire des événements audiovisuels spécifiques. Pour surmonter cette limitation, nous introduisons le CAT, qui améliore les MLLM de trois manières : 1) en plus de relier directement l'audio et la vidéo, nous concevons un agrégateur d'indices qui rassemble des indices liés à la question dans des scénarios audiovisuels dynamiques afin d'enrichir les connaissances détaillées nécessaires aux grands modèles de langage. 2) Le CAT est formé sur un ensemble de données multimodales mixtes, permettant son application directe dans des scénarios audiovisuels. Il convient de noter que nous avons collecté un ensemble de données d'instructions audiovisuelles conjointes nommé AVinstruct, pour renforcer davantage la capacité du CAT à modéliser les corrélations sémantiques croisées. 3) Nous proposons une optimisation préférentielle assistée par l'IA et sensible aux ambiguïtés, une stratégie spécialisée dans la réentraîne du modèle pour favoriser les réponses non ambiguës et améliorer sa capacité à localiser des objets audiovisuels spécifiques. Des résultats expérimentaux étendus montrent que le CAT surpassent les méthodes existantes dans les tâches multimodales, en particulier dans les tâches de réponse aux questions audiovisuelles (AVQA). Les codes et les instructions collectées sont disponibles à l'adresse https://github.com/rikeilong/Bay-CAT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp