HyperAI超神经

Cet ensemble de données est un ensemble de données de référence, LooGLE, proposé par l'Institut d'intelligence artificielle générale de Pékin (GIAI) et l'équipe de l'Institut d'intelligence artificielle de l'Université de Pékin pour tester et évaluer les capacités de compréhension à long contexte des grands modèles de langage (LLM).

En évaluant les 9 LLM à texte long les plus populaires, LooGLE a constaté que les performances de ces modèles en matière de recherche multi-informations, de réorganisation temporelle, de calcul et de capacités de compréhension et de raisonnement dans des tâches complexes à longue dépendance ne sont pas optimistes. Les modèles commerciaux (Claude3-200k, GPT4-32k, GPT4-8k, GPT3.5-turbo-6k, LlamaIndex) ont une précision moyenne de seulement 40%, et les modèles open source (ChatGLM2-6B, LongLLaMa-3B, RWKV-4-14B-pile, LLaMA-7B-32K) ont une précision de seulement 10%.

L'article « LooGLE : les modèles de langage à contexte long peuvent-ils comprendre les contextes longs ? » a été accepté par ACL2024. Les co-auteurs de l'article sont Li Jiaqi et Wang Mengmeng de l'Institut de recherche en communication, et les auteurs correspondants sont Zheng Zilong, chercheur à l'Institut de recherche en communication, et Zhang Muhan, professeur adjoint à l'Université de Pékin.

LooGLE comble les lacunes des ensembles de données précédents en fournissant des textes ultra-longs, en utilisant des documents relativement récents et des tâches de dépendance véritablement longues soigneusement conçues et annotées. Le lancement de l'ensemble de données de référence LooGLE fournit non seulement de nouveaux outils pour évaluer et améliorer les LLM à texte long, mais offre également une nouvelle direction pour le développement de la technologie de traitement du langage par intelligence artificielle.

Ensemble De Données De Référence Sur La Capacité De Compréhension Du Contexte Long LooGLE