HyperAIHyperAI

Command Palette

Search for a command to run...

DePlot : Raisonnement visuel-linguistique en une seule étape par traduction de graphique vers tableau

Fangyu Liu‡‡∗§ Julian Martin Eisenschlos∗∗ Francesco Piccinno∗ Syrine Krichene∗ Chenxi Pang∗ Kenton Lee∗ Mandar Joshi∗ Wenhu Chen∗ Nigel Collier∗ Yasemin Altun∗

Résumé

Le langage visuel, tel que les graphiques et les diagrammes, est omniprésent dans le monde humain. La compréhension des graphiques et des diagrammes nécessite de solides compétences en raisonnement. Les modèles d'état de l'art (SOTA) précédents nécessitent au moins plusieurs dizaines de milliers d'exemples d'entraînement, et leurs capacités de raisonnement restent encore largement limitées, en particulier pour les requêtes complexes rédigées par des humains. Cet article présente la première solution one-shot pour le raisonnement sur le langage visuel. Nous décomposons ce défi en deux étapes : (1) la traduction du graphique au texte, et (2) le raisonnement sur le texte traduit. L'élément clé de cette méthode est un module de conversion modale nommé DePlot, qui traduit l'image d'un graphique ou d'un diagramme en une table linéarisée. La sortie de DePlot peut ensuite être directement utilisée pour stimuler un grand modèle linguistique pré-entraîné (LLM), exploitant ainsi les capacités de raisonnement à partir de quelques exemples des LLMs. Pour obtenir DePlot, nous standardisons la tâche de conversion du graphique en table en établissant des formats et des métriques de tâche unifiés, et nous entraînons DePlot de manière intégrée sur cette tâche. DePlot peut ensuite être utilisé prêt à l'emploi avec les LLMs, dans une approche plug-and-play. Comparé à un modèle SOTA affiné sur plus de 28 000 points de données, DePlot + LLM avec une seule stimulation one-shot réalise une amélioration de 24,0 % par rapport au SOTA affiné sur les requêtes rédigées par des humains issues de la tâche d'interrogation sur les diagrammes (chart QA).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DePlot : Raisonnement visuel-linguistique en une seule étape par traduction de graphique vers tableau | Articles | HyperAI