il y a 11 jours

LOVA3 : Apprendre à répondre aux questions visuelles, poser des questions et évaluer

Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Zechen Bai, Mike Zheng Shou

Résumé

La réponse aux questions, la formulation de questions et l’évaluation sont trois facultés humaines fondamentales essentielles à la compréhension du monde et à l’acquisition de connaissances. En renforçant ces capacités, les humains peuvent exploiter les données de manière plus efficace, conduisant à une meilleure compréhension et à des résultats d’apprentissage améliorés. Les modèles linguistiques à grande échelle multimodaux (MLLM) actuels se concentrent principalement sur la réponse aux questions, en négligeant souvent tout le potentiel des compétences en formulation et en évaluation de questions. Inspirés par le mécanisme d’apprentissage humain, nous introduisons LOVA3, un cadre innovant intitulé « Learning tO Visual question Answering, Asking and Assessment », conçu pour doter les MLLM de ces capacités supplémentaires. Notre approche repose sur la création de deux tâches d’entraînement complémentaires, GenQA et EvalQA, visant à développer les compétences de formulation et d’évaluation de questions dans un contexte visuel. Pour renforcer la capacité à poser des questions, nous avons compilé un ensemble complet de tâches fondamentales multimodales. En matière d’évaluation, nous proposons une nouvelle référence appelée EvalQABench, comprenant 64 000 échantillons d’entraînement (répartis équitablement entre échantillons positifs et négatifs) ainsi que 5 000 échantillons de validation et de test. Nous soutenons que doter les MLLM des capacités à répondre, poser et évaluer des questions améliorera leur compréhension multimodale, et par conséquent, leur performance globale. Pour valider cette hypothèse, nous entraînons des MLLM selon le cadre LOVA3 et les évaluons sur diverses bases de données et benchmarks multimodaux. Nos résultats démontrent des améliorations de performance cohérentes, soulignant le rôle crucial de ces tâches supplémentaires dans le développement d’une intelligence complète chez les MLLM. Le code est disponible à l’adresse suivante : https://github.com/showlab/LOVA3.