Command Palette
Search for a command to run...
UQ 未解決問題データセット
※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。
UQデータセットは、スタンフォード大学、ワシントン大学、ノースカロライナ大学などの機関によって2025年に公開された評価ベンチマークです。関連する論文の結果は次のとおりです。UQ: 未解決問題における言語モデルの評価」は、現実的で困難な「人類社会が答えを出していない問題」を用いて、最先端の大規模モデルの推論能力、事実性、ブラウジング能力を評価することを目的としています。
このデータセットは、Stack Exchangeプラットフォームから長年未回答のまま残っていた500件の質問で構成されており、コンピュータサイエンス理論、数学、SF、歴史などのトピックを網羅しています。「ルールフィルタリング+LLMレビュー+手動レビュー」という収集パイプラインを採用し、UQ-Validatorsを搭載することで、候補回答の自動事前審査とコミュニティレビューを実施しています。難解でありながら現実的な評価、非同期評価、生成と検証の分離といった特徴があり、最先端モデルの推論・検索評価、長期的な進捗状況の追跡、公開ランキングなどのシナリオに適しています。
データ配信:
- 科学: 395
- テクノロジー: 52
- 文化とレクリエーション: 16
- ライフ&アート: 35
