2ヶ月前
LINGOLY: 低資源および絶滅言語のオリンピックレベルの言語推理パズルのベンチマーク
Andrew M. Bean; Simi Hellsten; Harry Mayne; Jabez Magomere; Ethan A. Chi; Ryan Chi; Scott A. Hale; Hannah Rose Kirk

要約
本論文では、大規模言語モデルの高度な推論能力を評価する新しいベンチマークであるLingOlyベンチマークを紹介します。難易度の高い言語オリンピックの問題を使用して、(i) 資源が非常に少ない言語や絶滅した言語における文法パターンの文脈内識別と一般化能力、および (ii) 複雑なタスク指示に従う能力を評価します。LingOlyベンチマークは90以上の主に資源が少ない言語をカバーしており、データ汚染の問題を最小限に抑えています。また、6つの形式と5段階の人間の難易度に基づく1,133問の問題を含んでいます。性能評価には直接的な正解率だけでなく、コンテキストなし基準との比較も行い、暗記による得点上昇をペナルティとして処理します。11種類の最先端の大規模言語モデル(LLM)からのスコアは、このベンチマークが難易度が高いことを示しています。特に高難度の問題においては、モデルの性能が著しく低下し、最も高性能なモデルであっても38.7%の正解率しか達成できませんでした。これはコンテキストなし基準に対して24.7%向上した結果です。大規模閉鎖型モデルは一般的にオープン型モデルよりも優れた性能を発揮し、全体的に見ると言語に利用できるリソースが多いほどスコアが高くなる傾向があります。これらの結果は、暗記がない状況下で真の多段階アウトオブドメイン推論が現在の大規模言語モデルにとって依然として課題であることを示唆しています。