HyperAIHyperAI
il y a 2 mois

DePlot : Raisonnement visuel-linguistique en une seule étape par traduction de graphique vers tableau

Liu, Fangyu ; Eisenschlos, Julian Martin ; Piccinno, Francesco ; Krichene, Syrine ; Pang, Chenxi ; Lee, Kenton ; Joshi, Mandar ; Chen, Wenhu ; Collier, Nigel ; Altun, Yasemin
DePlot : Raisonnement visuel-linguistique en une seule étape par traduction de graphique vers tableau
Résumé

Le langage visuel, tel que les graphiques et les diagrammes, est omniprésent dans le monde humain. La compréhension des graphiques et des diagrammes nécessite de solides compétences en raisonnement. Les modèles d'état de l'art (SOTA) précédents nécessitent au moins plusieurs dizaines de milliers d'exemples d'entraînement, et leurs capacités de raisonnement restent encore largement limitées, en particulier pour les requêtes complexes rédigées par des humains. Cet article présente la première solution one-shot pour le raisonnement sur le langage visuel. Nous décomposons ce défi en deux étapes : (1) la traduction du graphique au texte, et (2) le raisonnement sur le texte traduit. L'élément clé de cette méthode est un module de conversion modale nommé DePlot, qui traduit l'image d'un graphique ou d'un diagramme en une table linéarisée. La sortie de DePlot peut ensuite être directement utilisée pour stimuler un grand modèle linguistique pré-entraîné (LLM), exploitant ainsi les capacités de raisonnement à partir de quelques exemples des LLMs. Pour obtenir DePlot, nous standardisons la tâche de conversion du graphique en table en établissant des formats et des métriques de tâche unifiés, et nous entraînons DePlot de manière intégrée sur cette tâche. DePlot peut ensuite être utilisé prêt à l'emploi avec les LLMs, dans une approche plug-and-play. Comparé à un modèle SOTA affiné sur plus de 28 000 points de données, DePlot + LLM avec une seule stimulation one-shot réalise une amélioration de 24,0 % par rapport au SOTA affiné sur les requêtes rédigées par des humains issues de la tâche d'interrogation sur les diagrammes (chart QA).

DePlot : Raisonnement visuel-linguistique en une seule étape par traduction de graphique vers tableau | Articles de recherche récents | HyperAI