HyperAIHyperAI
il y a 10 jours

Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, Jack Fitzgerald, Srinivasan Veeravanallur
Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée
Résumé

La prolifération des grands modèles linguistiques multimodaux a considérablement amélioré la capacité à analyser et à comprendre des entrées de données complexes issues de différentes modalités. Toutefois, le traitement des documents longs reste largement sous-étudié, principalement en raison du manque de benchmarks adaptés. Pour pallier ce manque, nous introduisons Document Haystack, un benchmark complet conçu pour évaluer les performances des modèles vision-langage (VLM) sur des documents longs et visuellement complexes. Ce benchmark inclut des documents allant de 5 à 200 pages, dans lesquels sont stratégiquement insérés des « aiguilles » — soit des extraits textuels purs, soit des éléments multimodaux textes+images — à différentes profondeurs, afin de tester les capacités de récupération des VLM. Composé de 400 variantes de documents et de 8 250 questions, Document Haystack est soutenu par un cadre d'évaluation automatisé et objectif. Nous détaillons la construction et les caractéristiques du jeu de données Document Haystack, présentons les résultats obtenus par des VLMs de premier plan, et discutons des perspectives de recherche prometteuses dans ce domaine.