HyperAIHyperAI

Command Palette

Search for a command to run...

Console
9日前

ARM-Thinker:エージェントによるツール利用と視覚的推論を活用したマルチモーダル生成型報酬モデルの強化

ARM-Thinker:エージェントによるツール利用と視覚的推論を活用したマルチモーダル生成型報酬モデルの強化

要約

報酬モデルは、視覚言語システムを人間の好みに整合させる上で不可欠であるが、現行のアプローチには幻覚(hallucination)、視覚的根拠の弱さ、および検証に向けたツール利用の非対応といった問題があり、複雑なマルチモーダル推論タスクにおける信頼性を制限している。本研究では、外部ツール(例:画像のクロッピング、ドキュメントページの取得)を自律的に呼び出して、検証可能な証拠に基づいた判断を行うエージェンティックなマルチモーダル報酬モデル「ARM-Thinker」を提案する。これにより、従来の静的かつ非対話的な報酬スコアリングを代替し、細粒度な視覚的詳細の検証、複数ページにわたる証拠の照合、推論主張の検証といった能力を実現する。これらの能力は、既存の報酬モデルには存在しない。ARM-Thinkerは、ツール呼び出しの意思決定と判断精度を同時に最適化するため、段階的な強化学習により訓練されている。エージェンティック報酬モデリングの評価を目的として、画像レベルのツールによる細粒度視覚的根拠の評価(image-level tools)、複数ページドキュメント理解(retrieval tools)、指示遵守性(text-level verification)を評価する3つのベンチマークから構成される「ARMBench-VL」を導入した。実験結果では、ARM-Thinkerは報酬モデリングベンチマークで平均16.2%の向上、ツール利用タスクで9.6%の向上を達成し、マルチモーダル数学および論理推論ベンチマークにおいてもベースラインを上回った。本研究の結果は、エージェンティックな能力が報酬モデルの精度と解釈可能性を著しく向上させることを示している。

コードリポジトリ

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています