3ヶ月前

概要

エージェント型マルチモーダルモデルは、テキストや画像の理解にとどまらず、コード実行環境やウェブ検索といった外部ツールの能動的活用と、それらの操作を推論プロセスに統合する能力を備えるべきである。本研究では、データ構築、学習手法、モデル評価の観点から、エージェント型マルチモーダルモデルの構築方法を検討し、DeepEyesV2を紹介する。我々は、単一の強化学習アプローチでは堅牢なツール利用行動を誘導できないことを観察した。この現象を受けて、ツール利用のパターンを初期に確立する「コールドスタート段階」と、ツール呼び出しをさらに最適化する強化学習段階からなる二段階学習パイプラインを提案する。本研究では、ツール利用が有益となるケースを含む多様で中程度の難易度のトレーニングデータセットを構築した。さらに、現実世界のマルチモーダル推論を評価するための包括的ベンチマーク「RealX-Bench」を導入した。このベンチマークは、認識、検索、推論といった複数の能力の統合を本質的に要する。DeepEyesV2をRealX-Benchおよび他の代表的なベンチマークで評価した結果、現実世界の理解、数学的推論、検索を要するタスクにおいて、その有効性が示された。また、DeepEyesV2はタスクに応じた適応的ツール利用を示し、認識タスクでは画像処理を、推論タスクでは数値計算を好んで利用する傾向がみられた。強化学習により、複雑なツールの組み合わせが可能となり、文脈に応じて適切なツールを選択的に呼び出せる能力が向上した。本研究が、エージェント型マルチモーダルモデルの開発に向けたコミュニティの指針となることを期待する。

ソースPDF コードを表示