HyperAIHyperAI

Command Palette

Search for a command to run...

Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

Résumé

La prolifération des grands modèles linguistiques multimodaux a considérablement amélioré la capacité à analyser et à comprendre des entrées de données complexes issues de différentes modalités. Toutefois, le traitement des documents longs reste largement sous-étudié, principalement en raison du manque de benchmarks adaptés. Pour pallier ce manque, nous introduisons Document Haystack, un benchmark complet conçu pour évaluer les performances des modèles vision-langage (VLM) sur des documents longs et visuellement complexes. Ce benchmark inclut des documents allant de 5 à 200 pages, dans lesquels sont stratégiquement insérés des « aiguilles » — soit des extraits textuels purs, soit des éléments multimodaux textes+images — à différentes profondeurs, afin de tester les capacités de récupération des VLM. Composé de 400 variantes de documents et de 8 250 questions, Document Haystack est soutenu par un cadre d'évaluation automatisé et objectif. Nous détaillons la construction et les caractéristiques du jeu de données Document Haystack, présentons les résultats obtenus par des VLMs de premier plan, et discutons des perspectives de recherche prometteuses dans ce domaine.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp