Command Palette

Search for a command to run...

ミケランジェロのベンチマークミケランジェロ

日付

1年前

ミケランジェロは、長いテキストのコンテキストにおける大規模な言語モデルの推論能力を評価するために、2024 年に DeepMind の研究者によって提案された手法です。 Latent Structure Queries (LSQ) と呼ばれるフレームワークを使用して、以前の評価からのコンテキストの漏洩を回避しながら、コンテキストの長さを任意に拡張し、さまざまな複雑さのレベルを設定できる合成長文評価タスクを作成します。関連する論文結果は「ミケランジェロ: 潜在構造クエリによる干し草の山を超えた長いコンテキストの評価”。

Michelangelo には、Latent List、Multi-Round Coreference Resolution (MRCR)、および IDK という 3 つの単純なタスクが含まれています。これらのタスクは、単純な情報検索タスクを超えて、長いテキストのコンテキストを合成および推論するモデルの能力をテストするように設計されています。たとえば、潜在リスト タスクでは、モデルが一連のコード命令内の潜在データ構造のプロパティを追跡する必要があります。MRCR タスクでは、モデルが自然テキストの順序を理解し、類似したテキストの下書きを区別し、指定された文脈上の断片を再現する必要があります。 ; 複雑なクエリ。IDK タスクは、モデルが特定のコンテキストで未知の情報を理解できるかどうかをテストします。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています