HyperAIHyperAI

Command Palette

Search for a command to run...

Les modèles pré-entraînés vision-langage peuvent-ils répondre à des questions visuelles d'information ?

Yang Chen Hexiang Hu Yi Luan Haitian Sun Soravit Changpinyo Alan Ritter Ming-Wei Chang

Résumé

Les modèles pré-entraînés multimodaux vision-langage ont démontré des performances de pointe sur diverses tâches impliquant des images et des textes, notamment la question-réponse visuelle (VQA). Toutefois, il reste incertain que ces modèles soient capables de répondre à des questions qui ne se limitent pas à l’interprétation du contenu visuel, mais qui exigent des connaissances approfondies et une recherche d’information. Dans cette étude, nous introduisons InfoSeek, un jeu de données de question-réponse visuelle spécifiquement conçu pour des questions à caractère informatif, dont la réponse ne peut être fournie uniquement à partir de connaissances courantes. À l’aide d’InfoSeek, nous analysons plusieurs modèles pré-entraînés de VQA et tirons des observations sur leurs caractéristiques. Nos résultats révèlent que les meilleurs modèles multimodaux pré-entraînés actuels (par exemple, PaLI-X, BLIP2, etc.) peinent à répondre efficacement aux questions d’information visuelles. Toutefois, le fine-tuning sur le jeu de données InfoSeek permet aux modèles d’exploiter des connaissances fines acquises durant leur phase d’entraînement préalable. En outre, nous montrons qu’une reconnaissance précise des entités visuelles peut améliorer significativement les performances sur InfoSeek en permettant la récupération de documents pertinents, ouvrant ainsi un vaste espace d’amélioration.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp