
要約
報酬モデルは、視覚言語システムを人間の好みに整合させる上で不可欠であるが、現行のアプローチには幻覚(hallucination)、視覚的根拠の弱さ、および検証に向けたツール利用の非対応といった問題があり、複雑なマルチモーダル推論タスクにおける信頼性を制限している。本研究では、外部ツール(例:画像のクロッピング、ドキュメントページの取得)を自律的に呼び出して、検証可能な証拠に基づいた判断を行うエージェンティックなマルチモーダル報酬モデル「ARM-Thinker」を提案する。これにより、従来の静的かつ非対話的な報酬スコアリングを代替し、細粒度な視覚的詳細の検証、複数ページにわたる証拠の照合、推論主張の検証といった能力を実現する。これらの能力は、既存の報酬モデルには存在しない。ARM-Thinkerは、ツール呼び出しの意思決定と判断精度を同時に最適化するため、段階的な強化学習により訓練されている。エージェンティック報酬モデリングの評価を目的として、画像レベルのツールによる細粒度視覚的根拠の評価(image-level tools)、複数ページドキュメント理解(retrieval tools)、指示遵守性(text-level verification)を評価する3つのベンチマークから構成される「ARMBench-VL」を導入した。実験結果では、ARM-Thinkerは報酬モデリングベンチマークで平均16.2%の向上、ツール利用タスクで9.6%の向上を達成し、マルチモーダル数学および論理推論ベンチマークにおいてもベースラインを上回った。本研究の結果は、エージェンティックな能力が報酬モデルの精度と解釈可能性を著しく向上させることを示している。