HyperAIHyperAI

Command Palette

Search for a command to run...

MatCha : Amélioration de la préformation visuelle et linguistique avec le raisonnement mathématique et la dérenduisation des graphiques

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Résumé

Les données visuelles et linguistiques, telles que des graphiques, des diagrammes et des infographies, sont omniprésentes dans le monde humain. Cependant, les modèles vision-langage de pointe ne parviennent pas à bien traiter ces données. Nous proposons MatCha (préformation au raisonnement mathématique et à la décomposition de graphiques) pour améliorer les capacités des modèles visuels et linguistiques à modéliser conjointement des graphiques/diagrammes et des données linguistiques. Plus précisément, nous proposons plusieurs tâches de préformation qui couvrent la déconstruction de graphiques et le raisonnement numérique, qui sont les compétences clés en modélisation visuelle et linguistique.Nous effectuons la préformation MatCha à partir de Pix2Struct, un modèle vision-langage récemment proposé pour la conversion d'images en texte. Sur des benchmarks standards tels que PlotQA et ChartQA, le modèle MatCha surpasse les méthodes de pointe actuelles avec une amélioration pouvant atteindre près de 20 %. Nous examinons également la capacité du préentrainement MatCha à se transférer vers d'autres domaines tels que les captures d'écran, les schémas de manuels scolaires et les figures de documents, observant une amélioration globale. Ces résultats confirment l'utilité du préentrainement MatCha pour une gamme plus large de tâches en traitement du langage visuel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp