Command Palette
Search for a command to run...
Jinming Wu Zihao Deng Wei Li Yiding Liu Bo You Bo Li Zejun Ma Ziwei Liu

要約
実世界シナリオにおける大規模マルチモーダルモデル(LMMs)の堅牢な展開には、実世界情報の複雑さと動的性質を考慮して、外部知識源へのアクセスが必要です。既存のアプローチである検索強化生成(RAG)やプロンプトエンジニアリングによる検索エージェントは、堅固なパイプラインに依存しており、しばしば非効率的なまたは過度な検索行動につながります。本稿では、MMSearch-R1という最初のエンドツーエンド強化学習フレームワークを提案します。このフレームワークにより、LMMsは実世界のインターネット環境でオンデマンドかつ多ターンの検索を行うことが可能になります。当該フレームワークは画像検索ツールとテキスト検索ツールを統合し、モデルがこれらのツールを使用するタイミングと方法について推論できるように設計されています。この推論は結果に基づく報酬と検索ペナルティによってガイドされます。訓練を支援するために、我々は半自動パイプラインを通じて多様な視覚的および文章的な知識ニーズをカバーするマルチモーダル検索VQAデータセットを収集しました。さらに、検索が必要なサンプルと不要なサンプルをバランスよく含むサブセットを作成し、これが効率的かつオンデマンドの検索行動形成において不可欠であることを証明しています。知識集約型および情報探索型VQAタスクに関する広範な実験結果から、当モデルは同じサイズのRAGベースの基準モデルよりも優れた性能を示すだけでなく、より大きなRAGベースのモデルと同等の性能を達成しつつも30%以上の検索呼び出し削減に成功しています。また、重要な経験的知見を分析し、マルチモーダル検索研究の進展に向けた具体的な洞察を提供しています。