Command Palette

Search for a command to run...

20日前

DeepMMSearch-R1:マルチモーダルWeb検索におけるマルチモーダルLLMの能力を強化する

Kartik Narayan Yang Xu Tian Cao Kavya Nerella Vishal M. Patel et al

DeepMMSearch-R1:マルチモーダルWeb検索におけるマルチモーダルLLMの能力を強化する

要約

現実世界における応用において、マルチモーダル大規模言語モデル(MLLM)は外部知識源へのアクセスを必要とするとともに、常に変化し続ける現実世界の情報を適切に反映できるよう、動的な情報に対応する能力を備えていなければならない。これは、情報検索や知識集約型のユーザークエリに応じるための必須条件である。現在のアプローチ、例えばリトリーブ増強生成(RAG)手法、検索エージェント、検索機能を搭載したMLLMなどは、しばしば硬直的なパイプライン、過剰な検索呼び出し、不適切に構築された検索クエリといった課題に直面しており、結果として効率性の低下や劣った性能に繋がっている。こうした課題を克服するため、本研究では、オンデマンドかつ複数ターンにわたるウェブ検索を実行可能であり、画像およびテキスト検索ツールに対して動的に検索クエリを生成できる、初めてのマルチモーダル大規模言語モデル「DeepMMSearch-R1」を提案する。具体的には、入力画像の関連領域(クロップ)に基づいてウェブ検索を開始することで、画像検索の効果を高めることができ、また取得した情報に基づいてテキスト検索クエリを段階的に最適化することで、自己の検索プロセスを反省し、修正する能力を備えている。本手法は、2段階の学習パイプラインに依拠している:初期段階の教師あり微調整(コールドスタート)と、オンライン強化学習による最適化の段階。学習のために、ウェブ検索ツールから得られる現実世界の情報を自動パイプラインを介して統合した、新規のマルチモーダルVQAデータセット「DeepMMSearchVQA」を構築した。このデータセットは、テキストと視覚情報が統合された多段階のクエリを豊富に含んでおり、モデルに「いつ検索を行うか」「何を検索すべきか」「どの検索ツールを使用すべきか」「取得した情報をどのように推論すべきか」を学ばせる。本研究では、知識集約型の複数のベンチマークにおいて広範な実験を行い、本手法の優位性を実証した。最後に、得られた結果を分析し、マルチモーダルウェブ検索のさらなる発展に役立つ知見を提供する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DeepMMSearch-R1:マルチモーダルWeb検索におけるマルチモーダルLLMの能力を強化する | 論文 | HyperAI超神経