HyperAIHyperAI

Command Palette

Search for a command to run...

控制台

米开朗基罗基准 Michelangelo

日期

1 年前

Michelangelo 是由 DeepMind 的研究人员于 2024 年提出的一个用于评估大型语言模型在长文本上下文推理能力的方法。它通过一个名为 Latent Structure Queries (LSQ) 的框架来创建合成的长文本评估任务,这些任务可以任意扩展上下文长度,并且可以设置不同的复杂性级别,同时避免从先前评估中泄露上下文。相关论文成果为「Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries」。

Michelangelo 包含 3 个简单的任务:Latent List 、 Multi-Round Coreference Resolution (MRCR) 和 IDK 。这些任务旨在测试模型在长文本上下文中的合成和推理能力,这些能力超出了简单的信息检索任务。例如,Latent List 任务要求模型跟踪一系列代码指令中的潜在数据结构的属性;MRCR 任务则要求模型理解自然文本中的顺序,区分相似的文本草稿,并在复杂的查询中重现指定的上下文片段;IDK 任务则测试模型是否能够理解在给定上下文中它不知道的信息。

用 AI 构建 AI

从构思到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格加速您的 AI 开发。

AI 协同编码
可直接使用的 GPU
最佳价格

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
米开朗基罗基准 Michelangelo | Wiki | HyperAI超神经