11日前

画像および動画におけるクロスモーダル自己注意機構を用いた参照セグメンテーション

Linwei Ye, Mrigank Rochan, Zhi Liu, Xiaoqin Zhang, Yang Wang
画像および動画におけるクロスモーダル自己注意機構を用いた参照セグメンテーション
要約

画像および動画における自然言語を用いた参照セグメンテーションの問題を検討する。入力画像(または動画)と参照表現(referring expression)が与えられたとき、その表現によって指される対象を画像または動画内からセグメンテーションするというのが目的である。本論文では、個々の単語および入力画像・動画の細部情報を有効に活用するためのクロスモーダル自己注意(Cross-Modal Self-Attention, CMSA)モジュールを提案する。このモジュールは、言語的特徴と視覚的特徴の間の長距離依存関係を効果的に捉えることができる。また、本モデルは参照表現内の情報量の多い単語や視覚入力内の重要な領域に適応的に注目することができる。さらに、異なるレベルの視覚特徴に対応する自己注意型クロスモーダル特徴を選択的に統合するためのゲート付き多段階融合(Gated Multi-Level Fusion, GMLF)モジュールを提案する。このモジュールは、高レベルおよび低レベルの意味情報(特に異なる注目単語に関連するもの)を考慮しつつ、異なるレベルの特徴の情報フローの融合を制御する。また、連続フレーム間の時間的情報を効果的に統合するためのクロスフレーム自己注意(Cross-Frame Self-Attention, CFSA)モジュールを導入し、本手法を動画における参照セグメンテーションに拡張している。4つの参照画像データセットおよび2つのアクター・アクション動画セグメンテーションデータセットにおける標準ベンチマークでの実験結果から、本手法が既存の最先端手法を一貫して上回ることが確認された。

画像および動画におけるクロスモーダル自己注意機構を用いた参照セグメンテーション | 最新論文 | HyperAI超神経