HyperAIHyperAI
il y a 14 jours

Sommes-nous sur la bonne voie pour évaluer la génération de documents augmentée par récupération ?

Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
Sommes-nous sur la bonne voie pour évaluer la génération de documents augmentée par récupération ?
Résumé

Les systèmes de génération augmentée par récupération (RAG) utilisant des modèles linguistiques à grande échelle multimodaux (MLLM) montrent un grand potentiel pour la compréhension de documents complexes, mais leur développement est fortement freiné par une évaluation insuffisante. Les benchmarks actuels se concentrent souvent sur une composante particulière des systèmes RAG documentaires et reposent sur des données synthétiques présentant des vérités de base incomplètes et des étiquettes d’éléments de preuve non exhaustives, ce qui les empêche de refléter fidèlement les goulets d’étranglement et défis réels du monde réel. Pour surmonter ces limites, nous introduisons Double-Bench : un nouveau système d’évaluation à grande échelle, multilingue et multimodal, capable d’effectuer une évaluation fine de chaque composante au sein des systèmes RAG documentaires. Il comprend 3 276 documents (72 880 pages) et 5 168 requêtes simples ou à plusieurs sauts, couvrant 6 langues et 4 types de documents, avec un support dynamique simplifié pour les mises à jour, afin de prévenir les risques de contamination des données. Les requêtes sont fondées sur des pages de preuves exhaustivement analysées et vérifiées par des experts humains, garantissant une qualité et une exhaustivité maximales. Nos expériences approfondies, menées sur 9 modèles d’encodage d’état de l’art, 4 MLLM et 4 cadres RAG documentaires end-to-end, révèlent que l’écart entre les modèles d’encodage textuel et visuel se réduit progressivement, soulignant la nécessité de développer des modèles de récupération documentaire plus performants. Nos résultats mettent également en évidence un dilemme de surconfiance inhérent aux cadres RAG documentaires actuels, qui ont tendance à fournir des réponses même en l’absence de preuves. Nous espérons que Double-Bench, entièrement open-source, fournira une base rigoureuse pour les recherches futures sur les systèmes RAG documentaires avancés. Nous prévoyons de récupérer régulièrement des corpus actualisés et de publier de nouveaux benchmarks chaque année.