HyperAIHyperAI

Command Palette

Search for a command to run...

PRÉLUDE : Un benchmark conçu pour exiger une compréhension et un raisonnement globaux sur des contextes longs

Résumé

Nous présentons PRELUDE, un benchmark destiné à évaluer la compréhension des contextes longs à travers la tâche de détermination de la cohérence entre l’histoire préliminaire d’un personnage et le récit canonique du roman original. Cette tâche exige une compréhension globale et une raisonnement approfondi plus poussés que ceux requis par les benchmarks existants — les préquels n’étant pas inclus dans l’histoire originale, l’évaluation de leur plausibilité suppose généralement une recherche et une intégration d’informations seulement indirectement liées. En pratique, 88 % des instances nécessitent des éléments de preuve provenant de plusieurs parties du récit. Les résultats expérimentaux mettent en évidence la difficulté de cette tâche : l’apprentissage en contexte, le RAG (Retrieval-Augmented Generation), l’entraînement sur domaine avec les meilleurs modèles de langage actuels (LLM), ainsi que les services commerciaux DeepResearch, se situent à plus de 15 % derrière les humains. Une étude supplémentaire menée sur des humains révèle que les modèles produisent souvent des réponses correctes par des raisonnements erronés, entraînant un écart supérieur à 30 % en précision du raisonnement par rapport aux humains. Ces résultats soulignent clairement l’importante marge de progression encore nécessaire dans la compréhension et le raisonnement à longue portée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp