Command Palette

Search for a command to run...

UQ 未解決問題データセット

Discordコミュニティに参加

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください

UQデータセットは、スタンフォード大学、ワシントン大学、ノースカロライナ大学などの機関によって2025年に公開された評価ベンチマークです。関連する論文の結果は次のとおりです。UQ: 未解決問題における言語モデルの評価」は、現実的で困難な「人類社会が答えを出していない問題」を用いて、最先端の大規模モデルの推論能力、事実性、ブラウジング能力を評価することを目的としています。

このデータセットは、Stack Exchangeプラットフォームから長年未回答のまま残っていた500件の質問で構成されており、コンピュータサイエンス理論、数学、SF、歴史などのトピックを網羅しています。「ルールフィルタリング+LLMレビュー+手動レビュー」という収集パイプラインを採用し、UQ-Validatorsを搭載することで、候補回答の自動事前審査とコミュニティレビューを実施しています。難解でありながら現実的な評価、非同期評価、生成と検証の分離といった特徴があり、最先端モデルの推論・検索評価、長期的な進捗状況の追跡、公開ランキングなどのシナリオに適しています。

データ配信:

  • 科学: 395
  • テクノロジー: 52
  • 文化とレクリエーション: 16
  • ライフ&アート: 35
データセット構築プロセス

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UQ 未解決問題データセット | データセット | HyperAI超神経