HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement basé sur les graphiques : Transfert des capacités des LLM aux VLM

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

Résumé

Les modèles vision-langage (VLMs) obtiennent des performances de plus en plus solides sur les tâches multimodales. Cependant, leurs capacités de raisonnement restent limitées, particulièrement pour les VLMs de taille plus petite, tandis que celles des grands modèles de langage (LLMs) ont connu de nombreuses améliorations. Nous proposons une technique permettant de transférer les capacités des LLMs aux VLMs. Sur le récent ChartQA, notre méthode atteint des performances d'état de l'art lorsqu'elle est appliquée au VLM PaLI3-5B \citet{chen2023pali3}, tout en permettant des performances nettement meilleures sur PlotQA et FigureQA.Nous commençons par améliorer la représentation des graphiques en poursuivant l'étape de pré-entraînement à l'aide d'une version améliorée de la tâche de traduction graphique-vers-tableau proposée par \citet{liu2023deplot}. Nous proposons ensuite la construction d'un jeu de données 20 fois plus grand que l'ensemble d'entraînement original. Pour améliorer les capacités générales de raisonnement et les opérations numériques, nous synthétisons des traces de raisonnement à partir de la représentation tabulaire des graphiques. Enfin, notre modèle est affiné en utilisant la perte multitâche introduite par \citet{hsieh2023distilling}.Notre variante ChartPaLI-5B surpasse même des modèles 10 fois plus grands comme PaLIX-55B sans utiliser un système OCR en amont, tout en maintenant un temps d'inférence constant par rapport à la ligne de base PaLI3-5B. Lorsque les justifications sont affinées avec une simple invite programme-de-pensée \cite{chen2023program}, notre modèle surpasses les récemment introduits Gemini Ultra et GPT-4V.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp