il y a 8 mois

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Résumé

Les données visuelles et linguistiques, telles que des graphiques, des diagrammes et des infographies, sont omniprésentes dans le monde humain. Cependant, les modèles vision-langage de pointe ne parviennent pas à bien traiter ces données. Nous proposons MatCha (préformation au raisonnement mathématique et à la décomposition de graphiques) pour améliorer les capacités des modèles visuels et linguistiques à modéliser conjointement des graphiques/diagrammes et des données linguistiques. Plus précisément, nous proposons plusieurs tâches de préformation qui couvrent la déconstruction de graphiques et le raisonnement numérique, qui sont les compétences clés en modélisation visuelle et linguistique.Nous effectuons la préformation MatCha à partir de Pix2Struct, un modèle vision-langage récemment proposé pour la conversion d'images en texte. Sur des benchmarks standards tels que PlotQA et ChartQA, le modèle MatCha surpasse les méthodes de pointe actuelles avec une amélioration pouvant atteindre près de 20 %. Nous examinons également la capacité du préentrainement MatCha à se transférer vers d'autres domaines tels que les captures d'écran, les schémas de manuels scolaires et les figures de documents, observant une amélioration globale. Ces résultats confirment l'utilité du préentrainement MatCha pour une gamme plus large de tâches en traitement du langage visuel.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Multimodal

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Réponse À Des Questions Visuelles

Multimodal

Apprentissage Multi-tâches

Approche/Framework

Multimodal

Tâche

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

MatCha : Amélioration de la préformation visuelle et linguistique avec le raisonnement mathématique et la dérenduisation des graphiques

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MatCha : Amélioration de la préformation visuelle et linguistique avec le raisonnement mathématique et la dérenduisation des graphiques

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MatCha : Amélioration de la préformation visuelle et linguistique avec le raisonnement mathématique et la dérenduisation des graphiques

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters