HyperAIHyperAI
il y a 2 mois

CAT : Amélioration d'un grand modèle de langage multimodal pour répondre aux questions dans des scénarios audiovisuels dynamiques

Qilang Ye; Zitong Yu; Rui Shao; Xinyu Xie; Philip Torr; Xiaochun Cao
CAT : Amélioration d'un grand modèle de langage multimodal pour répondre aux questions dans des scénarios audiovisuels dynamiques
Résumé

Ce document se concentre sur le défi de répondre à des questions dans des scénarios composés d'éléments audiovisuels riches et complexes. Bien que les modèles de langage multimodaux existants (MLLM) puissent répondre à du contenu audiovisuel, ces réponses sont parfois ambiguës et ne parviennent pas à décrire des événements audiovisuels spécifiques. Pour surmonter cette limitation, nous introduisons le CAT, qui améliore les MLLM de trois manières : 1) en plus de relier directement l'audio et la vidéo, nous concevons un agrégateur d'indices qui rassemble des indices liés à la question dans des scénarios audiovisuels dynamiques afin d'enrichir les connaissances détaillées nécessaires aux grands modèles de langage. 2) Le CAT est formé sur un ensemble de données multimodales mixtes, permettant son application directe dans des scénarios audiovisuels. Il convient de noter que nous avons collecté un ensemble de données d'instructions audiovisuelles conjointes nommé AVinstruct, pour renforcer davantage la capacité du CAT à modéliser les corrélations sémantiques croisées. 3) Nous proposons une optimisation préférentielle assistée par l'IA et sensible aux ambiguïtés, une stratégie spécialisée dans la réentraîne du modèle pour favoriser les réponses non ambiguës et améliorer sa capacité à localiser des objets audiovisuels spécifiques. Des résultats expérimentaux étendus montrent que le CAT surpassent les méthodes existantes dans les tâches multimodales, en particulier dans les tâches de réponse aux questions audiovisuelles (AVQA). Les codes et les instructions collectées sont disponibles à l'adresse https://github.com/rikeilong/Bay-CAT.

CAT : Amélioration d'un grand modèle de langage multimodal pour répondre aux questions dans des scénarios audiovisuels dynamiques | Articles de recherche récents | HyperAI