17日前

歌詞：意味に敏感な視覚的オブジェクトを活用した微細な言語-視覚アライメントおよび理解の向上

Junyu Lu, Dixiang Zhang, Songxin Zhang, Zejian Xie, Zhuoyang Song, Cong Lin, Jiaxing Zhang, Bingyi Jing, Pingjian Zhang

要約

大規模な視覚言語モデル（LVLMs）は、さまざまな視覚言語対話シナリオにおいて、驚異的なゼロショット能力を示している。しかし、細粒度の視覚的オブジェクト検出が欠如しているため、画像の詳細な理解が困難となり、修復不能な視覚的錯覚や事実誤認が生じる。本論文では、細粒度のクロスモーダル連携から視覚言語の整合性を自己強化する、新たなマルチモーダル事前学習および指示微調整パラダイム「Lyrics」を提案する。BLIP-2を基盤とし、画像タグ付け、オブジェクト検出、意味セグメンテーションモジュールを含む視覚リファイナーから抽出された局所的視覚特徴をクエリトランスフォーマーに統合する。一方、テキスト側では、視覚リファイナーから得られた境界ボックスおよびタグを入力として用いる。さらに、二段階の学習スキームを導入し、事前学習段階では明示的かつ包括的な視覚言語整合性ターゲットによりモダリティギャップを埋める。指示微調整段階では、意味に敏感な視覚特徴抽出法を導入し、モデルが具体的な視覚的オブジェクトから情報量の多い特徴を抽出できるようにする。本手法は、複数の視覚言語タスクにわたる13のデータセットで堅牢な性能を達成し、11のシナリオベースのベンチマークツールキットにおいて、有望なマルチモーダル理解・認識・対話能力を示している。