17日前

分離型非局所ニューラルネットワーク

Minghao Yin, Zhuliang Yao, Yue Cao, Xiu Li, Zheng Zhang, Stephen Lin, Han Hu
分離型非局所ニューラルネットワーク
要約

非局所ブロック(non-local block)は、通常の畳み込みニューラルネットワークの文脈モデリング能力を強化するための代表的なモジュールとして広く用いられている。本論文では、まず非局所ブロックについて詳細な分析を行い、その注目(attention)計算が二つの項に分解可能であることを明らかにした。一つは、二つの画素間の関係を捉えるホワイト化されたペアワイズ項であり、もう一つは各画素の顕著性(saliency)を表現するユニアリ項である。さらに、これらの二つの項を別々に学習させた場合、それぞれ異なる視覚的特徴をモデル化することが観察された。例えば、ホワイト化されたペアワイズ項は領域内における関係性を学習するのに対し、ユニアリ項は顕著な境界を捉える傾向がある。しかし、従来の非局所ブロックでは、これらの二つの項が強く結合されており、それぞれの学習を妨げていることが明らかになった。このような知見をもとに、本研究では二つの項を分離(decouple)する新たなアーキテクチャである「分離型非局所ブロック(disentangled non-local block)」を提案する。この設計により、二つの項それぞれの学習を促進することが可能となる。提案手法の有効性は、Cityscapes、ADE20K、PASCAL Contextにおけるセマンティックセグメンテーション、COCOにおけるオブジェクト検出、Kineticsにおけるアクション認識といった多様なタスクにおいて実証された。