Command Palette
Search for a command to run...
Fan Nie Ken Ziyu Liu Zihao Wang Rui Sun Wei Liu Weijia Shi et al

要約
AI研究の進展は、ベンチマークによって形作られる。有用なベンチマークとは、難易度が高く、かつ現実世界の利用状況を反映しているものである。つまり、最先端モデルが挑戦できるレベルの問題を含みつつ、実用的な意義を持つべきである。しかし、現行の評価手法には「難易度」と「現実性」のジレンマが存在する。試験形式のベンチマークは、現実世界での価値が限定的である一方で、意図的に難しく設計されることが多く、一方で、実際のユーザー行動に基づくベンチマークは、容易で頻出する問題に偏りがちである。本研究では、根本的に異なるアプローチを提案する。未解決の問題に対するモデルの評価である。一回限りの静的評価ではなく、未解決の問題を収集し、検証者による支援とコミュニティによる検証を組み合わせ、時間的に非同期にモデルを評価する。本研究では、Stack Exchangeから収集した500問にのぼる難易度が高く多様な問題を収録したテストベッド「UQ(Unsolved Questions)」を紹介する。分野は計算機科学理論や数学からサイエンスフィクション、歴史まで幅広く、推論力、事実性、Web閲覧能力などの多様な能力を検証できる。UQは構造的に難しく、かつ現実的である。未解決の問題は本質的に難しく、人間が答えを求めることで自然に生じるため、その解決には直接的な現実世界の価値が生まれる。本研究の貢献は以下の3点である:(1)質の高い問題を保証するための収集パイプラインを備えた「UQ-データセット」。このパイプラインはルールベースのフィルタ、大規模言語モデル(LLM)による審査、および人間によるレビューを統合しており、問題の明確さや難易度を確保する。(2)生成モデルと検証モデルのギャップを活用した「UQ-検証者(Validators)」。これは、候補となる解答の事前スクリーニングを行い、人間による審査の負荷を軽減する複合的な検証戦略である。(3)専門家が共同で問題と解答を検証できるオープンプラットフォーム「UQ-プラットフォーム」。評価結果によると、トップモデルはUQ検証においてわずか15%の問題で合格にとどまり、初期の人間による検証では、通過した解答の中から正しい答えがすでに特定されている。UQは、現実世界における開放的で未解決の課題に対して最先端モデルを評価する新たな道を示しており、その成功は人類の知識の限界を押し広げる可能性を秘めている。