Command Palette
Search for a command to run...
V*:マルチモーダルLLMにおけるコアメカニズムとしてのガイド付き視覚探索
V*:マルチモーダルLLMにおけるコアメカニズムとしてのガイド付き視覚探索
Penghao Wu Saining Xie
概要
周囲を観察し、複雑なタスクを遂行する際、どのように視覚情報を捉え、その中から重要な情報を選択的に処理するかが極めて重要である。しかし、現在のマルチモーダル大規模言語モデル(MLLM)には、このような視覚検索メカニズムが欠如しており、特に高解像度かつ視覚的に混雑した画像を扱う場合、重要な視覚的詳細に焦点を当てることができないという課題がある。この問題を解決するために、本研究ではLLM(大規模言語モデル)に内蔵された世界知識を活用して効率的な視覚クエリを実現する、LLMガイド型の視覚検索メカニズム「V」を提案する。このメカニズムをMLLMと組み合わせることで、共同推論、文脈理解、特定の視覚要素への正確なターゲティングが向上する。その統合により、新たなMLLMのメタアーキテクチャ「Show, sEArch, and TelL(SEAL)」が構築された。さらに、高解像度画像の処理能力および視覚的詳細への注目能力を評価するための専用ベンチマーク「VBench」も開発した。本研究は、マルチモーダルシステムに視覚検索機能を組み込むことの重要性を強調している。コードは以下のURLで公開されている:https://github.com/penghao-wu/vstar。