VerifyBench: 複数領域における推論検証システムのための体系的なベンチマーク

大規模言語モデル(LLM)は、フィードバックを通じて推論能力を向上させるために強化学習(RL)への依存をますます高めています。重要な課題は、これらの応答がしばしば長く、多様で、微妙なため、モデル生成の応答と基準解答の整合性を確認することです。ルールベースの検証者は複雑さに苦労し、モデルベースの検証者の使用が促進されています。しかし、専門的な検証者は柔軟性に欠け、一般的なLLMジャッジは一貫性を欠きます。既存の研究は主に優れた検証者の構築に焦点を当てていますが、異なる種類の検証者が各領域での性能を系統的に評価する研究が不足しており、これにより検証可能な報酬を持つ強化学習(RLVR)の信頼性のある開発が大幅に制約されています。 これを解決するために、VerifyBench--各領域での検証者を系統的に評価するためのクロスドメイン包括的なベンチマークを提案します。数学、物理学、化学、生物学をカバーする4,000問の専門家レベルの質問を作成しました。各質問には基準解答と多様な応答が付いています。評価の信頼性は、多分野専門家チームによる厳密な注釈プロセスを通じて確保されます。抽出された解答と完全な応答、短い出力と長い出力という組み合わせ条件のもとで、専門的な検証者と一般的なLLMの性能境界を包括的に比較するための4次元実験フレームワークを設計しました。 我々の評価では、検証者における基本的なトレードオフが明らかになりました:専門的な検証者は最高精度を達成していますが、再現率において欠点があります;一般モデルはより強い包含性を持っていますが、精度が不安定です。さらに重要なのは、入力構造に対する検証者の高い感度とクロスドメイン汎化における固有の制限が見つかったことです。これは現在の検証技術におけるボトルネックに関する重要な洞察を与えています。