HyperAIHyperAI

Command Palette

Search for a command to run...

Les grands modèles linguistiques sont des raisonneurs temporels et causaux pour la réponse aux questions vidéo

Dohwan Ko Ji Soo Lee Wooyoung Kang Byungseok Roh Hyunwoo J. Kim

Résumé

Les grands modèles linguistiques (LLM) ont fait preuve de performances remarquables sur un large éventail de tâches de compréhension et de génération du langage naturel. Nous observons que ces modèles fournissent des a priori efficaces pour exploiter les « raccourcis linguistiques » dans le raisonnement temporel et causal en tâche de réponse à des questions sur des vidéos (VideoQA). Toutefois, de tels a priori entraînent souvent des résultats sous-optimaux en raison d’un sur-référencement aux questions, c’est-à-dire d’un biais linguistique, au détriment du contenu visuel. Ce phénomène est également connu sous le nom de « suppositions déconnectées » ou « hallucinations ». Pour résoudre ce problème tout en tirant parti des a priori des LLM en VideoQA, nous proposons un cadre novateur, Flipped-VQA, qui encourage le modèle à prédire toutes les combinaisons du triplet ⟨V, Q, A⟩ en inversant la paire source et l’étiquette cible, afin de mieux comprendre leurs relations complexes : prédire A, Q et V à partir de paires VQ, VA et QA respectivement. Dans cet article, nous développons LLaMA-VQA en appliquant Flipped-VQA à LLaMA, et ce modèle surpasser à la fois les modèles basés sur des LLM et ceux non basés sur des LLM sur cinq benchmarks exigeants de VideoQA. En outre, notre cadre Flipped-VQA est généralisable à divers LLM (OPT et GPT-J) et améliore de manière cohérente leurs performances. Nous démontrons empiriquement que Flipped-VQA renforce non seulement l’exploitation des raccourcis linguistiques, mais aussi la réduction du biais linguistique, qui conduit à des réponses erronées par une dépendance excessive à la question. Le code est disponible à l’adresse suivante : https://github.com/mlvlab/Flipped-VQA.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp