HyperAI超神经

该数据集是北京通用人工智能研究院（简称通研院）联合北京大学人工智能研究院团队提出了一个用于测试和评估大语言模型 (LLMs) 长上下文理解能力的基准数据集——LooGLE 。

LooGLE 通过对当前最为流行 9 种长文本 LLMs 进行评估可以发现，这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。商业模型 (Claude3-200k，GPT4-32k 、 GPT4-8k 、 GPT3.5-turbo-6k 、 LlamaIndex) 平均只有 40% 的准确率，开源模型 (ChatGLM2-6B 、 LongLLaMa-3B 、 RWKV-4-14B-pile 、 LLaMA-7B-32K) 只有 10% 的准确率。

该成果论文《LooGLE: Can Long-Context Language Models Understand Long Contexts?》已被 ACL2024 接收，论文共同一作为通研院的李佳琪、王萌萌，通讯作者为通研院研究员郑子隆和北京大学助理教授张牧涵。

LooGLE 通过提供超长文本、使用相对较新的文档以及精心设计和标注的真正长依赖性任务等优势解决了先前数据集存在的不足。 LooGLE 基准数据集的推出不仅为评估和改进长文本 LLMs 提供了新的工具，也为人工智能语言处理技术的发展提供了新的方向。

LooGLE 长上下文理解能力基准数据集