11日前

MaIL:参照画像セグメンテーションのための統一型マスク-画像-言語3モーダルネットワーク

Zizhang Li, Mengmeng Wang, Jianbiao Mei, Yong Liu
MaIL:参照画像セグメンテーションのための統一型マスク-画像-言語3モーダルネットワーク
要約

参照画像セグメンテーションは、与えられた言語表現によって記述された参照対象に対して二値マスクを生成することを目的とする典型的なマルチモーダルタスクである。従来の手法は、エンコーダー・融合・デコーダーのパイプラインを採用し、画像と言語を二つのモーダルとして扱うバイモーダルアプローチを用いている。しかし、このパイプラインは以下の二つの理由から、タスクに最適ではない。第一に、単モーダルエンコーダーが個別に生成する高レベル特徴のみを融合しているため、十分なクロスモーダル学習が阻害される。第二に、単モーダルエンコーダーが独立して事前学習されているため、事前学習された単モーダルタスクとターゲットとなるマルチモーダルタスクとの間に一貫性が欠ける。さらに、このパイプラインは直感的に有益なインスタンスレベルの特徴を無視するか、その利用を最小限に抑えがちである。これらの課題を緩和するため、本研究ではマスク・画像・言語の三モーダルエンコーダーを備えたより簡潔なエンコーダー・デコーダー構造であるMaILを提案する。具体的には、MaILは単モーダル特徴抽出器とその融合モデルを統合した深層モーダル相互作用エンコーダーとして構築することで、異なるモーダル間における十分な特徴相互作用を促進する。同時に、単モーダルエンコーダーを必要としないため、第二の制約を直接回避できる。さらに、本研究では初めてインスタンスマスクを追加のモーダルとして導入することを提案し、インスタンスレベルの特徴を明示的に強化することで、より精細なセグメンテーション結果を実現する。提案するMaILは、RefCOCO、RefCOCO+、G-Refなど、よく用いられる参照画像セグメンテーションデータセットにおいて、従来の最良手法に対して3%~10%の顕著な性能向上を達成し、新たなSOTA(最良の結果)を樹立した。コードは近日中に公開予定である。

MaIL:参照画像セグメンテーションのための統一型マスク-画像-言語3モーダルネットワーク | 最新論文 | HyperAI超神経