
要約
回答検証は、大規模言語モデル(LLM)の性能を、その非構造的な出力結果を標準的な正解と照合することで評価するうえで不可欠な要素であるだけでなく、LLMの最適化を導くための報酬モデルとしても機能する。現在の多数の評価フレームワークは、正規表現による規則化照合や、一般的なLLMを用いた回答検証に依存しており、正規表現ルールや評価プロンプトの設定に膨大かつ反復的なカスタマイズ作業が必要となる。現在の手法には、以下の二つの根本的な課題が残っている。第一に、異なるLLMにおける検証能力を体系的に評価できる包括的なベンチマークが存在しないこと。第二に、検証モデルの開発がまだ初期段階にあり、複雑な境界ケース(エッジケース)に対応する堅牢性と、異なるドメイン間での汎化能力の両方が不足していることである。本研究では、評価および結果報酬に向けた高精度かつ堅牢な軽量型検証モデル「CompassVerifier」を構築した。本モデルは、数学、知識、多様な推論タスクにわたり多ドメインの能力を発揮し、複数の部分問題、数式、順序付き回答など、さまざまな回答形式を処理可能であり、異常・無効な回答を効果的に検出する能力を備えている。さらに、複数のデータソースから収集したモデル出力に基づき、メタエラーのパターンを手動で分析・拡張することで構築された「VerifierBench」ベンチマークを提案する。本研究で開発したCompassVerifierとVerifierBenchが、回答検証、評価プロトコル、強化学習研究の発展に貢献することが期待される。コードおよびデータセットは、https://github.com/open-compass/CompassVerifier にて公開されている。