Prophet : Amorçage des grands modèles linguistiques par des heuristiques de réponse complémentaires pour la réponse à des questions visuelles fondée sur des connaissances

La réponse à des questions visuelles fondée sur des connaissances (VQA basée sur des connaissances) nécessite des informations extérieures à l’image pour fournir une réponse. Les études préliminaires récupéraient les connaissances requises à partir de bases de connaissances explicites (KB), ce qui introduisait souvent des informations non pertinentes par rapport à la question, limitant ainsi les performances des modèles. Les travaux récents se sont tournés vers l’utilisation d’un modèle de langage puissant (LLM) comme moteur implicite de connaissance afin d’acquérir les informations nécessaires à la réponse. Bien que ces approches aient obtenu des résultats encourageants, nous affirmons qu’elles n’ont pas pleinement exploité le potentiel du LLM aveugle, car les entrées textuelles fournies sont insuffisantes pour décrire adéquatement les informations visuelles requises pour répondre à la question. Dans cet article, nous proposons Prophet — un cadre conceptuellement simple, flexible et général conçu pour guider un LLM à l’aide d’heuristiques de réponse dans le contexte de la VQA basée sur des connaissances. Plus précisément, nous entraînons d’abord un modèle VQA classique sur un jeu de données spécifique de VQA basée sur des connaissances, sans recourir à des connaissances externes. Ensuite, nous extrayons deux types d’heuristiques de réponse complémentaires à partir du modèle VQA : des candidats de réponse et des exemples sensibles à la réponse. Ces deux types d’heuristiques sont ensuite combinés dans une formulation de prompt structurée, afin d’aider le LLM à mieux comprendre à la fois l’image et la question, conduisant ainsi à des réponses plus précises. En intégrant le LLM de pointe GPT-3, Prophet surpasse significativement les méthodes les plus avancées existantes sur quatre jeux de données de VQA basée sur des connaissances particulièrement exigeants. Prophet est un cadre généralisable pouvant être instancié avec des combinaisons de différents modèles VQA (à la fois discriminatifs et génératifs) et de différents LLM (à la fois commerciaux et open-source). En outre, Prophet peut également être intégré à différentes étapes dans les modèles multimodaux modernes, ce qui donne naissance à une version améliorée baptisée Prophet++, permettant d’approfondir encore les performances sur les tâches de VQA basée sur des connaissances.