11日前

参照画像セグメンテーションのための双方向関係推論ネットワーク

{ Huchuan Lu, Lihe Zhang, Jiayu Sun, Guang Feng, Zhiwei Hu}
参照画像セグメンテーションのための双方向関係推論ネットワーク
要約

既存の多数の手法は、視覚と言語の間の相互指導を明示的に定式化していない。本研究では、マルチモーダル情報の依存関係をモデル化するため、双方向的関係推論ネットワーク(BRINet)を提案する。具体的には、視覚情報をもとに言語的文脈を適応的に学習する「視覚誘導型言語的注目(vision-guided linguistic attention)」を用いる。これと、言語誘導型視覚的注目を組み合わせることで、双方向的マルチモーダル注目モジュール(BCAM)を構築し、複数モーダル特徴間の関係を学習する。その結果、対象オブジェクトと参照表現の最終的な意味的文脈を正確かつ一貫して表現可能となる。さらに、ゲート関数を用いて多レベル情報の双方向的伝達を制御するゲート付き双方向融合モジュール(GBFM)を設計し、多レベル特徴を効果的に統合する。4つのベンチマークデータセットにおける広範な実験結果から、提案手法が異なる評価指標において、他の最先端手法を上回ることを示した。

参照画像セグメンテーションのための双方向関係推論ネットワーク | 最新論文 | HyperAI超神経