HyperAIHyperAI

Command Palette

Search for a command to run...

LINGOLY: 低資源および絶滅言語のオリンピックレベルの言語推理パズルのベンチマーク

Andrew Bean* Simi Hellsten Harry Mayne Jabez Magomere Ethan A. Chi Ryan Chi Scott A. Hale Hannah Rose Kirk

概要

本論文では、大規模言語モデルの高度な推論能力を評価する新しいベンチマークであるLingOlyベンチマークを紹介します。難易度の高い言語オリンピックの問題を使用して、(i) 資源が非常に少ない言語や絶滅した言語における文法パターンの文脈内識別と一般化能力、および (ii) 複雑なタスク指示に従う能力を評価します。LingOlyベンチマークは90以上の主に資源が少ない言語をカバーしており、データ汚染の問題を最小限に抑えています。また、6つの形式と5段階の人間の難易度に基づく1,133問の問題を含んでいます。性能評価には直接的な正解率だけでなく、コンテキストなし基準との比較も行い、暗記による得点上昇をペナルティとして処理します。11種類の最先端の大規模言語モデル(LLM)からのスコアは、このベンチマークが難易度が高いことを示しています。特に高難度の問題においては、モデルの性能が著しく低下し、最も高性能なモデルであっても38.7%の正解率しか達成できませんでした。これはコンテキストなし基準に対して24.7%向上した結果です。大規模閉鎖型モデルは一般的にオープン型モデルよりも優れた性能を発揮し、全体的に見ると言語に利用できるリソースが多いほどスコアが高くなる傾向があります。これらの結果は、暗記がない状況下で真の多段階アウトオブドメイン推論が現在の大規模言語モデルにとって依然として課題であることを示唆しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています