HyperAIHyperAI
il y a 2 mois

Raisonnement basé sur les graphiques : Transfert des capacités des LLM aux VLM

Carbune, Victor ; Mansoor, Hassan ; Liu, Fangyu ; Aralikatte, Rahul ; Baechler, Gilles ; Chen, Jindong ; Sharma, Abhanshu
Raisonnement basé sur les graphiques : Transfert des capacités des LLM aux VLM
Résumé

Les modèles vision-langage (VLMs) obtiennent des performances de plus en plus solides sur les tâches multimodales. Cependant, leurs capacités de raisonnement restent limitées, particulièrement pour les VLMs de taille plus petite, tandis que celles des grands modèles de langage (LLMs) ont connu de nombreuses améliorations. Nous proposons une technique permettant de transférer les capacités des LLMs aux VLMs. Sur le récent ChartQA, notre méthode atteint des performances d'état de l'art lorsqu'elle est appliquée au VLM PaLI3-5B \citet{chen2023pali3}, tout en permettant des performances nettement meilleures sur PlotQA et FigureQA.Nous commençons par améliorer la représentation des graphiques en poursuivant l'étape de pré-entraînement à l'aide d'une version améliorée de la tâche de traduction graphique-vers-tableau proposée par \citet{liu2023deplot}. Nous proposons ensuite la construction d'un jeu de données 20 fois plus grand que l'ensemble d'entraînement original. Pour améliorer les capacités générales de raisonnement et les opérations numériques, nous synthétisons des traces de raisonnement à partir de la représentation tabulaire des graphiques. Enfin, notre modèle est affiné en utilisant la perte multitâche introduite par \citet{hsieh2023distilling}.Notre variante ChartPaLI-5B surpasse même des modèles 10 fois plus grands comme PaLIX-55B sans utiliser un système OCR en amont, tout en maintenant un temps d'inférence constant par rapport à la ligne de base PaLI3-5B. Lorsque les justifications sont affinées avec une simple invite programme-de-pensée \cite{chen2023program}, notre modèle surpasses les récemment introduits Gemini Ultra et GPT-4V.

Raisonnement basé sur les graphiques : Transfert des capacités des LLM aux VLM | Articles de recherche récents | HyperAI