Michelangelo 是由 DeepMind 的研究人员于 2024 年提出的一个用于评估大型语言模型在长文本上下文推理能力的方法。它通过一个名为 Latent Structure Queries (LSQ) 的框架来创建合成的长文本评估任务,这些任务可以任意扩展上下文长度,并且可以设置不同的复杂性级别,同时避免从先前评估中泄露上下文。相关论文成果为「Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries」。
Michelangelo 包含 3 个简单的任务:Latent List 、 Multi-Round Coreference Resolution (MRCR) 和 IDK 。这些任务旨在测试模型在长文本上下文中的合成和推理能力,这些能力超出了简单的信息检索任务。例如,Latent List 任务要求模型跟踪一系列代码指令中的潜在数据结构的属性;MRCR 任务则要求模型理解自然文本中的顺序,区分相似的文本草稿,并在复杂的查询中重现指定的上下文片段;IDK 任务则测试模型是否能够理解在给定上下文中它不知道的信息。