ミケランジェロは、長いテキストのコンテキストにおける大規模な言語モデルの推論能力を評価するために、2024 年に DeepMind の研究者によって提案された手法です。 Latent Structure Queries (LSQ) と呼ばれるフレームワークを使用して、以前の評価からのコンテキストの漏洩を回避しながら、コンテキストの長さを任意に拡張し、さまざまな複雑さのレベルを設定できる合成長文評価タスクを作成します。関連する論文結果は「ミケランジェロ: 潜在構造クエリによる干し草の山を超えた長いコンテキストの評価”。
Michelangelo には、Latent List、Multi-Round Coreference Resolution (MRCR)、および IDK という 3 つの単純なタスクが含まれています。これらのタスクは、単純な情報検索タスクを超えて、長いテキストのコンテキストを合成および推論するモデルの能力をテストするように設計されています。たとえば、潜在リスト タスクでは、モデルが一連のコード命令内の潜在データ構造のプロパティを追跡する必要があります。MRCR タスクでは、モデルが自然テキストの順序を理解し、類似したテキストの下書きを区別し、指定された文脈上の断片を再現する必要があります。 ; 複雑なクエリ。IDK タスクは、モデルが特定のコンテキストで未知の情報を理解できるかどうかをテストします。