HyperAIHyperAI

Command Palette

Search for a command to run...

LOVA3 : Apprendre à répondre aux questions visuelles, poser des questions et évaluer

Henry Hengyuan Zhao Pan Zhou Difei Gao Zechen Bai Mike Zheng Shou

Résumé

La réponse aux questions, la formulation de questions et l’évaluation sont trois facultés humaines fondamentales essentielles à la compréhension du monde et à l’acquisition de connaissances. En renforçant ces capacités, les humains peuvent exploiter les données de manière plus efficace, conduisant à une meilleure compréhension et à des résultats d’apprentissage améliorés. Les modèles linguistiques à grande échelle multimodaux (MLLM) actuels se concentrent principalement sur la réponse aux questions, en négligeant souvent tout le potentiel des compétences en formulation et en évaluation de questions. Inspirés par le mécanisme d’apprentissage humain, nous introduisons LOVA3, un cadre innovant intitulé « Learning tO Visual question Answering, Asking and Assessment », conçu pour doter les MLLM de ces capacités supplémentaires. Notre approche repose sur la création de deux tâches d’entraînement complémentaires, GenQA et EvalQA, visant à développer les compétences de formulation et d’évaluation de questions dans un contexte visuel. Pour renforcer la capacité à poser des questions, nous avons compilé un ensemble complet de tâches fondamentales multimodales. En matière d’évaluation, nous proposons une nouvelle référence appelée EvalQABench, comprenant 64 000 échantillons d’entraînement (répartis équitablement entre échantillons positifs et négatifs) ainsi que 5 000 échantillons de validation et de test. Nous soutenons que doter les MLLM des capacités à répondre, poser et évaluer des questions améliorera leur compréhension multimodale, et par conséquent, leur performance globale. Pour valider cette hypothèse, nous entraînons des MLLM selon le cadre LOVA3 et les évaluons sur diverses bases de données et benchmarks multimodaux. Nos résultats démontrent des améliorations de performance cohérentes, soulignant le rôle crucial de ces tâches supplémentaires dans le développement d’une intelligence complète chez les MLLM. Le code est disponible à l’adresse suivante : https://github.com/showlab/LOVA3.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LOVA3 : Apprendre à répondre aux questions visuelles, poser des questions et évaluer | Articles | HyperAI