日付

10ヶ月前

データセット構成

Paper URL

2508.07999

ライセンス

Other

タグ

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

WideSearchは、2025年にByteDanceのSeedチームによってリリースされた「広範な情報探索」向けに設計された最初のエージェント評価ベンチマークデータセットです。関連する論文の結果は次のとおりです。WideSearch:エージェントによる広範な情報探索のベンチマーク大規模な事実収集、統合、検証可能な構造化出力における大規模言語モデルの信頼性と整合性を体系的に評価し、促進することを目的としています。このベンチマークは、実際のユーザークエリから研究チームが厳選し、手作業でクリーンアップした200個の高品質な質問（英語100個、中国語100個）で構成されています。これらの質問は15以上の異なる分野から集められています。

データフィールド:

instance_id: タスクの一意の ID (ゴールド CSV ファイル名に対応)。
クエリ: 通常、必要な列名と Markdown テーブルの出力要件を指定する自然言語の命令。
評価: 自動評価に使用されるシリアル化された (文字列) オブジェクト。次の内容が含まれます。

unique_columns: 主キー列（行の位置合わせ用）
必須: 表示する必要がある列名。
eval_pipeline: 列レベルの評価構成 (前処理、メトリック、基準など)。

language: タスクの言語。値は en または zh になります。
データ構築と自動評価フローチャート

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用 Discordで議論

日付

10ヶ月前

データセット構成

Paper URL

2508.07999

ライセンス

Other

タグ

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

データフィールド:

instance_id: タスクの一意の ID (ゴールド CSV ファイル名に対応)。
クエリ: 通常、必要な列名と Markdown テーブルの出力要件を指定する自然言語の命令。
評価: 自動評価に使用されるシリアル化された (文字列) オブジェクト。次の内容が含まれます。

unique_columns: 主キー列（行の位置合わせ用）
必須: 表示する必要がある列名。
eval_pipeline: 列レベルの評価構成 (前処理、メトリック、基準など)。

language: タスクの言語。値は en または zh になります。
データ構築と自動評価フローチャート

クリエイティブ専門家向けクリエイティブタスク指示データセット

3ヶ月前

Sutra 10B 事前学習用教育・訓練データセット

3ヶ月前

CL-bench コンテキスト学習評価ベンチマークデータセット

4ヶ月前

RoVid-X ロボットビデオ生成データセット

2ヶ月前

DeepPlanning 長期計画能力評価データセット

5ヶ月前

GroundingME 複雑シーン理解評価データセット

6ヶ月前

MCIFマルチモーダルクロスランゲージ指導データセット

6ヶ月前

TxT360-3efforts マルチタスク推論データセット

6ヶ月前

LongBench-Pro ロングコンテキスト包括的評価データセット

6ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

WideSearch情報収集ベンチマークデータセット

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

データフィールド:

AIでAIを構築

HyperAI Newsletters

Command Palette

WideSearch情報収集ベンチマークデータセット

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

データフィールド:

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

Sutra 10B 事前学習用教育・訓練データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

RoVid-X ロボット ビデオ生成データセット

DeepPlanning 長期計画能力評価データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

WideSearch情報収集ベンチマークデータセット

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

データフィールド:

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

Sutra 10B 事前学習用教育・訓練データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

RoVid-X ロボット ビデオ生成データセット

DeepPlanning 長期計画能力評価データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

Sutra 10B 事前学習用教育・訓練データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

RoVid-X ロボット ビデオ生成データセット

DeepPlanning 長期計画能力評価データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

関連データセット

クリエイティブ専門家向けクリエイティブタスク指示データセット

Sutra 10B 事前学習用教育・訓練データセット

CL-bench コンテキスト学習評価ベンチマークデータセット

RoVid-X ロボット ビデオ生成データセット

DeepPlanning 長期計画能力評価データセット

GroundingME 複雑シーン理解評価データセット

MCIFマルチモーダルクロスランゲージ指導データセット

TxT360-3efforts マルチタスク推論データセット

LongBench-Pro ロングコンテキスト包括的評価データセット

RoVid-X ロボットビデオ生成データセット

RoVid-X ロボットビデオ生成データセット

RoVid-X ロボットビデオ生成データセット

RoVid-X ロボットビデオ生成データセット