PRÉLUDE : Un benchmark conçu pour exiger une compréhension et un raisonnement globaux sur des contextes longs

Nous présentons PRELUDE, un benchmark destiné à évaluer la compréhension des contextes longs à travers la tâche de détermination de la cohérence entre l’histoire préliminaire d’un personnage et le récit canonique du roman original. Cette tâche exige une compréhension globale et une raisonnement approfondi plus poussés que ceux requis par les benchmarks existants — les préquels n’étant pas inclus dans l’histoire originale, l’évaluation de leur plausibilité suppose généralement une recherche et une intégration d’informations seulement indirectement liées. En pratique, 88 % des instances nécessitent des éléments de preuve provenant de plusieurs parties du récit. Les résultats expérimentaux mettent en évidence la difficulté de cette tâche : l’apprentissage en contexte, le RAG (Retrieval-Augmented Generation), l’entraînement sur domaine avec les meilleurs modèles de langage actuels (LLM), ainsi que les services commerciaux DeepResearch, se situent à plus de 15 % derrière les humains. Une étude supplémentaire menée sur des humains révèle que les modèles produisent souvent des réponses correctes par des raisonnements erronés, entraînant un écart supérieur à 30 % en précision du raisonnement par rapport aux humains. Ces résultats soulignent clairement l’importante marge de progression encore nécessaire dans la compréhension et le raisonnement à longue portée.