
参照画像セグメンテーション(Referring Image Segmentation; RIS)は、自由な自然言語表現によって指される対象を画像内でセグメンテーションするという、極めて困難なタスクである。近年の進展にもかかわらず、大多数の最先端(SOTA)手法は、ピクセルレベルおよび語彙レベルにおける言語と画像のモダリティギャップを依然として抱えている。これらの手法は一般的に、1)言語-画像のアライメントに文レベルの言語特徴量に依存しており、2)細粒度な視覚的接地(visual grounding)に対する明示的な教師信号を欠いている。その結果、視覚的特徴量と言語的特徴量の間におけるオブジェクトレベルの対応が弱くなる。適切に接地されていない特徴量を用いるため、従来の手法は複数オブジェクト間の関係に関する強い推論を要する複雑な表現を理解することが困難であり、特に稀に使われるまたは曖昧な節を含む場合に顕著に性能が低下する。本研究では、この課題に立ち向かうために、マスクされたテキストトークンとその対応する視覚的オブジェクトとの間の細粒度な対応を明示的に学習させるという、新たな「マスク接地(Mask Grounding)」補助タスクを提案する。このアプローチにより、言語特徴量内の視覚的接地が著しく強化される。マスク接地は既存のRIS手法に直接適用可能であり、一貫して性能向上をもたらす。さらに、モダリティギャップを包括的に解決するため、クロスモーダルアライメント損失とそれに伴うアライメントモジュールも設計した。これらの追加要素は、マスク接地と相乗効果を発揮する。これらの技術を統合した本研究の包括的なアーキテクチャは、MagNet(Mask-grounded Network)と命名され、RefCOCO、RefCOCO+、G-Refの3つの主要ベンチマークにおいて、従来手法を顕著に上回る性能を達成した。これにより、本手法がRISアルゴリズムの現存する限界を効果的に克服できることを示した。本研究のコードおよび事前学習済み重みは、公開予定である。