il y a 6 mois

Résumé

La prolifération des grands modèles linguistiques multimodaux a considérablement amélioré la capacité à analyser et à comprendre des entrées de données complexes issues de différentes modalités. Toutefois, le traitement des documents longs reste largement sous-étudié, principalement en raison du manque de benchmarks adaptés. Pour pallier ce manque, nous introduisons Document Haystack, un benchmark complet conçu pour évaluer les performances des modèles vision-langage (VLM) sur des documents longs et visuellement complexes. Ce benchmark inclut des documents allant de 5 à 200 pages, dans lesquels sont stratégiquement insérés des « aiguilles » — soit des extraits textuels purs, soit des éléments multimodaux textes+images — à différentes profondeurs, afin de tester les capacités de récupération des VLM. Composé de 400 variantes de documents et de 8 250 questions, Document Haystack est soutenu par un cadre d'évaluation automatisé et objectif. Nous détaillons la construction et les caractéristiques du jeu de données Document Haystack, présentons les résultats obtenus par des VLMs de premier plan, et discutons des perspectives de recherche prometteuses dans ce domaine.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension De Document

Récupération De Documents Visuels

Any-to-Any

Traitement Du Langage Naturel

Multimodal

Tâche

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Compréhension De Document

Récupération De Documents Visuels

Any-to-Any

Traitement Du Langage Naturel

Multimodal

Tâche

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Document Haystack : un benchmark vision LLM multimodal pour la compréhension de documents à longue portée

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters