17日前
インストラクション誘導型視覚マスキング
Jinliang Zheng, Jianxiong Li, Sijie Cheng, Yinan Zheng, Jiaming Li, Jihao Liu, Yu Liu, Jingjing Liu, Xianyuan Zhan

要約
現代の大規模言語モデル(LLM)において、指示に従う能力は極めて重要である。しかし、マルチモーダルな設定に拡張する際、特定のテキスト指示と画像内の対象領域との間に整合性の欠如(misalignment)が頻発する。より正確で微細なマルチモーダル指示対応を実現するため、本研究では「指示誘導型視覚マスク(Instruction-guided Visual Masking, IVM)」を提案する。IVMは、LMM(多モーダル言語モデル)やロボットモデルなど、多様なマルチモーダルモデルと互換性を持つ汎用的な視覚地盤モデルであり、指示に関係のない画像領域に対して視覚マスクを構築することで、タスクに関連する画像領域にモデルの注目を集中させ、複雑な指示との整合性を高める。具体的には、視覚マスクのデータ生成パイプラインを設計し、100万件の画像-指示ペアを含む「IVM-Mix-1M」データセットを構築した。さらに、高品質なデータサンプルを優先的に学習するための新しい学習手法「識別器重み付き教師付き学習(Discriminator Weighted Supervised Learning, DWSL)」を導入した。VQA(視覚質問応答)や身体的ロボット制御といった一般的なマルチモーダルタスクにおける実験結果から、IVMがプラグアンドプレイ型のツールとして、多様なマルチモーダルモデルの性能を顕著に向上させ、困難なマルチモーダルベンチマークにおいて新たな最優秀(SOTA)結果を達成することが示された。コード、モデル、データは以下のURLから公開されている:https://github.com/2toinf/IVM。