Command Palette

Search for a command to run...

4ヶ月前

MMSearch-R1: LMMの検索を奨励する

Jinming Wu Zihao Deng Wei Li Yiding Liu Bo You Bo Li Zejun Ma Ziwei Liu

MMSearch-R1: LMMの検索を奨励する

要約

実世界シナリオにおける大規模マルチモーダルモデル(LMMs)の堅牢な展開には、実世界情報の複雑さと動的性質を考慮して、外部知識源へのアクセスが必要です。既存のアプローチである検索強化生成(RAG)やプロンプトエンジニアリングによる検索エージェントは、堅固なパイプラインに依存しており、しばしば非効率的なまたは過度な検索行動につながります。本稿では、MMSearch-R1という最初のエンドツーエンド強化学習フレームワークを提案します。このフレームワークにより、LMMsは実世界のインターネット環境でオンデマンドかつ多ターンの検索を行うことが可能になります。当該フレームワークは画像検索ツールとテキスト検索ツールを統合し、モデルがこれらのツールを使用するタイミングと方法について推論できるように設計されています。この推論は結果に基づく報酬と検索ペナルティによってガイドされます。訓練を支援するために、我々は半自動パイプラインを通じて多様な視覚的および文章的な知識ニーズをカバーするマルチモーダル検索VQAデータセットを収集しました。さらに、検索が必要なサンプルと不要なサンプルをバランスよく含むサブセットを作成し、これが効率的かつオンデマンドの検索行動形成において不可欠であることを証明しています。知識集約型および情報探索型VQAタスクに関する広範な実験結果から、当モデルは同じサイズのRAGベースの基準モデルよりも優れた性能を示すだけでなく、より大きなRAGベースのモデルと同等の性能を達成しつつも30%以上の検索呼び出し削減に成功しています。また、重要な経験的知見を分析し、マルチモーダル検索研究の進展に向けた具体的な洞察を提供しています。

コードリポジトリ

evolvinglmms-lab/multimodal-search-r1
公式
pytorch
GitHubで言及

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MMSearch-R1: LMMの検索を奨励する | 論文 | HyperAI超神経