HyperAIHyperAI

Command Palette

Search for a command to run...

UQ 未解決問題データセット

Use this DatasetDiscuss on Discord

Date

4ヶ月前

Organization

スタンフォード大学
ワシントン大学

Paper URL

2508.17580

License

CC BY-SA 4.0

UQデータセットは、スタンフォード大学、ワシントン大学、ノースカロライナ大学などの機関によって2025年に公開された評価ベンチマークです。関連する論文の結果は次のとおりです。UQ: 未解決問題における言語モデルの評価」は、現実的で困難な「人類社会が答えを出していない問題」を用いて、最先端の大規模モデルの推論能力、事実性、ブラウジング能力を評価することを目的としています。

このデータセットは、Stack Exchangeプラットフォームから長年未回答のまま残っていた500件の質問で構成されており、コンピュータサイエンス理論、数学、SF、歴史などのトピックを網羅しています。「ルールフィルタリング+LLMレビュー+手動レビュー」という収集パイプラインを採用し、UQ-Validatorsを搭載することで、候補回答の自動事前審査とコミュニティレビューを実施しています。難解でありながら現実的な評価、非同期評価、生成と検証の分離といった特徴があり、最先端モデルの推論・検索評価、長期的な進捗状況の追跡、公開ランキングなどのシナリオに適しています。

データ配信:

  • 科学: 395
  • テクノロジー: 52
  • 文化とレクリエーション: 16
  • ライフ&アート: 35
データセット構築プロセス

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています