
要約
参照画像セグメンテーション(Referring Image Segmentation: RIS)について調査する。RISは、自然言語による記述に対応するセグメンテーションマップを出力するタスクである。効率的なRISの実現には、視覚モダリティと言語モダリティ間の相互作用に加え、各モダリティ内部における相互作用を考慮する必要がある。従来の手法は、異なる種類の相互作用を逐次的に計算する(誤差伝搬を引き起こす)か、あるいはモダリティ内相互作用を無視するという制限を抱えている。本研究では、視覚・言語モダリティ間および各モダリティ内におけるすべての相互作用を同時に行う「同期的マルチモーダル融合モジュール(Synchronous Multi-Modal Fusion Module: SFM)」を導入することで、この課題を克服する。さらに、高精度なセグメンテーションマスクの生成を実現するため、言語特徴が視覚階層間での文脈情報の交換を促進する「階層的クロスモーダル集約モジュール(Hierarchical Cross-Modal Aggregation Module: HCAM)」を提案する。本手法の有効性を、4つのベンチマークデータセット上で包括的なアブレーションスタディを実施し検証した結果、既存の最先端(SOTA)手法と比較して顕著な性能向上が確認された。