このデータセットを使用 Discordで議論

日付

5ヶ月前

データセット構成

Paper URL

ライセンス

CC BY-SA 4.0

タグ

理論計算機科学

UQデータセットは、スタンフォード大学、ワシントン大学、ノースカロライナ大学などの機関によって2025年に公開された評価ベンチマークです。関連する論文の結果は次のとおりです。UQ: 未解決問題における言語モデルの評価」は、現実的で困難な「人類社会が答えを出していない問題」を用いて、最先端の大規模モデルの推論能力、事実性、ブラウジング能力を評価することを目的としています。

このデータセットは、Stack Exchangeプラットフォームから長年未回答のまま残っていた500件の質問で構成されており、コンピュータサイエンス理論、数学、SF、歴史などのトピックを網羅しています。「ルールフィルタリング＋LLMレビュー＋手動レビュー」という収集パイプラインを採用し、UQ-Validatorsを搭載することで、候補回答の自動事前審査とコミュニティレビューを実施しています。難解でありながら現実的な評価、非同期評価、生成と検証の分離といった特徴があり、最先端モデルの推論・検索評価、長期的な進捗状況の追跡、公開ランキングなどのシナリオに適しています。

データ配信:

科学: 395
テクノロジー: 52
文化とレクリエーション: 16
ライフ＆アート: 35

データセット構築プロセス

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

このデータセットを使用 Discordで議論

日付

5ヶ月前

データセット構成

Paper URL

ライセンス

CC BY-SA 4.0

タグ

理論計算機科学

UQデータセットは、スタンフォード大学、ワシントン大学、ノースカロライナ大学などの機関によって2025年に公開された評価ベンチマークです。関連する論文の結果は次のとおりです。UQ: 未解決問題における言語モデルの評価」は、現実的で困難な「人類社会が答えを出していない問題」を用いて、最先端の大規模モデルの推論能力、事実性、ブラウジング能力を評価することを目的としています。

このデータセットは、Stack Exchangeプラットフォームから長年未回答のまま残っていた500件の質問で構成されており、コンピュータサイエンス理論、数学、SF、歴史などのトピックを網羅しています。「ルールフィルタリング＋LLMレビュー＋手動レビュー」という収集パイプラインを採用し、UQ-Validatorsを搭載することで、候補回答の自動事前審査とコミュニティレビューを実施しています。難解でありながら現実的な評価、非同期評価、生成と検証の分離といった特徴があり、最先端モデルの推論・検索評価、長期的な進捗状況の追跡、公開ランキングなどのシナリオに適しています。

データ配信:

科学: 395
テクノロジー: 52
文化とレクリエーション: 16
ライフ＆アート: 35

データセット構築プロセス

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています