Command Palette
Search for a command to run...
ProcessBench は、数学的推論におけるエラーの特定に焦点を当てたベンチマーク データ セットで、数学的推論におけるエラー ステップを特定する言語モデルの能力を測定するように設計されています。これは、2024 年にアリババ グループの Qwen チームによって開始されました。 」ProcessBench: 数学的推論におけるプロセス エラーの特定”。 このデータ セットには、競争やオリンピックの難易度の高い数学の問題に焦点を当てた 3.4k のテスト インスタンスが含まれています。各例には段階的な解決策が付属しており、ドメインの専門家が何が問題になったのかを正確に指摘します。このデータセットを構築する際、研究チームは複数の公開データソースから質問を選択し、さまざまなオープンソース言語モデルを使用して解決策を生成し、最終的に専門家によってそれらをレビューして、データの高水準の品質を確保しました。

引用
@article{processbench、 タイトル={ProcessBench: 数学的推論におけるプロセスエラーの特定} 著者={ Chujie Zheng、Zhenru Zhang、Beichen Zhang、Runji Lin、Keming Lu、 ボーウェン・ユー、ダイヘン・リウ、ジンレン・チョウ、ジュンヤン・リン }, ジャーナル={arXivプレプリント arXiv:2412.06559}、 年={2024} }