日付

2年前

サイズ

1.92 MB

データセット構成

論文URL

タグ

ProcessBench は、数学的推論におけるエラーの特定に焦点を当てたベンチマークデータセットで、数学的推論におけるエラーステップを特定する言語モデルの能力を測定するように設計されています。これは、2024 年にアリババグループの Qwen チームによって開始されました。」ProcessBench: 数学的推論におけるプロセスエラーの特定”。このデータセットには、競争やオリンピックの難易度の高い数学の問題に焦点を当てた 3.4k のテストインスタンスが含まれています。各例には段階的な解決策が付属しており、ドメインの専門家が何が問題になったのかを正確に指摘します。このデータセットを構築する際、研究チームは複数の公開データソースから質問を選択し、さまざまなオープンソース言語モデルを使用して解決策を生成し、最終的に専門家によってそれらをレビューして、データの高水準の品質を確保しました。

PROCESSBENCHのデータ例。ラベル 2 は、ステップ 2 で最も古いエラーが発生したことを意味します (0 からインデックス付けされます)。エラーのないテストケースのラベルは -1 です。

引用

@article{processbench、タイトル={ProcessBench: 数学的推論におけるプロセスエラーの特定} 著者={ Chujie Zheng、Zhenru Zhang、Beichen Zhang、Runji Lin、Keming Lu、ボーウェン・ユー、ダイヘン・リウ、ジンレン・チョウ、ジュンヤン・リン }, ジャーナル={arXivプレプリント arXiv:2412.06559}、年={2024} }

ProcessBench.torrent

シーディング 1ダウンロード中 0完了 162総ダウンロード数 223

ProcessBench/
- README.md
  1.58 KB
- README.txt
  3.15 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

2年前

サイズ

1.92 MB

データセット構成

論文URL

タグ

引用

ProcessBench.torrent

シーディング 1ダウンロード中 0完了 162総ダウンロード数 223

ProcessBench/
- README.md
  1.58 KB
- README.txt
  3.15 KB

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ProcessBench の数的推論ベンチマーク データ セット

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

ProcessBench の数的推論ベンチマーク データ セット

引用

関連データセット

RHELM長期記憶評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

FigureBench科学イラスト生成ベンチマークデータセット

ChartNetチャートの理解：マルチモーダルデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

VisCoR-55K ビジュアル推論データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OpenMementos コンテキストメモリ圧縮データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

ワールドモデルベンチデータセット

GPT-5.4ステップバイステップ推論データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

ProcessBench の数的推論ベンチマーク データ セット

引用

関連データセット

RHELM長期記憶評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

FigureBench科学イラスト生成ベンチマークデータセット

ChartNetチャートの理解：マルチモーダルデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

VisCoR-55K ビジュアル推論データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OpenMementos コンテキストメモリ圧縮データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

ワールドモデルベンチデータセット

GPT-5.4ステップバイステップ推論データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

RHELM長期記憶評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

FigureBench科学イラスト生成ベンチマークデータセット

ChartNetチャートの理解：マルチモーダルデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

VisCoR-55K ビジュアル推論データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

Claw-Eval実世界ベンチマークデータセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

PanScaleリモートセンシングPancolorシャープニングデータセット

ParseBench文書解析能力評価データセット

OpenMementos コンテキストメモリ圧縮データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

ワールドモデルベンチデータセット

GPT-5.4ステップバイステップ推論データセット

関連データセット

RHELM長期記憶評価データセット

ProcessBench の数的推論ベンチマークデータセット

ProcessBench の数的推論ベンチマークデータセット

ProcessBench の数的推論ベンチマークデータセット