il y a 8 mois

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

Résumé

Les modèles vision-langage (VLMs) obtiennent des performances de plus en plus solides sur les tâches multimodales. Cependant, leurs capacités de raisonnement restent limitées, particulièrement pour les VLMs de taille plus petite, tandis que celles des grands modèles de langage (LLMs) ont connu de nombreuses améliorations. Nous proposons une technique permettant de transférer les capacités des LLMs aux VLMs. Sur le récent ChartQA, notre méthode atteint des performances d'état de l'art lorsqu'elle est appliquée au VLM PaLI3-5B \citet{chen2023pali3}, tout en permettant des performances nettement meilleures sur PlotQA et FigureQA.Nous commençons par améliorer la représentation des graphiques en poursuivant l'étape de pré-entraînement à l'aide d'une version améliorée de la tâche de traduction graphique-vers-tableau proposée par \citet{liu2023deplot}. Nous proposons ensuite la construction d'un jeu de données 20 fois plus grand que l'ensemble d'entraînement original. Pour améliorer les capacités générales de raisonnement et les opérations numériques, nous synthétisons des traces de raisonnement à partir de la représentation tabulaire des graphiques. Enfin, notre modèle est affiné en utilisant la perte multitâche introduite par \citet{hsieh2023distilling}.Notre variante ChartPaLI-5B surpasse même des modèles 10 fois plus grands comme PaLIX-55B sans utiliser un système OCR en amont, tout en maintenant un temps d'inférence constant par rapport à la ligne de base PaLI3-5B. Lorsque les justifications sont affinées avec une simple invite programme-de-pensée \cite{chen2023program}, notre modèle surpasses les récemment introduits Gemini Ultra et GPT-4V.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

LLM

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

LLM

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Raisonnement basé sur les graphiques : Transfert des capacités des LLM aux VLM

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement basé sur les graphiques : Transfert des capacités des LLM aux VLM

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement basé sur les graphiques : Transfert des capacités des LLM aux VLM

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters