19日前

squeeze-and-attention ネットワークによるセマンティックセグメンテーション

Zilong Zhong, Zhong Qiu Lin, Rene Bidart, Xiaodan Hu, Ibrahim Ben Daya, Zhifeng Li, Wei-Shi Zheng, Jonathan Li, Alexander Wong

論文の詳細を見る

squeeze-and-attention ネットワークによるセマンティックセグメンテーション

要約

近年、注目機構（attention mechanism）がセグメンテーションネットワークに統合されるようになり、より情報量の多い特徴に重点を置くことで、モデルの表現能力が著しく向上している。しかし、こうした注目機構は、セマンティックセグメンテーションの内在的な副課題を無視しており、畳み込みカーネルのグリッド構造に制約されている。本論文では、セグメンテーションの2つの特徴——i) ピクセル群に対する注目（pixel-group attention）、ii) ピクセル単位の予測（pixel-wise prediction）——を適切に捉えることを目的として、新しいsqueeze-and-attentionネットワーク（SANet）アーキテクチャを提案する。具体的には、提案するSAモジュールは、従来の畳み込みに「注目」畳み込みチャネルを導入することで、ピクセル群に対する注目を実現し、空間的・チャネル的依存関係を効率的に扱う。最終的なセグメンテーション結果は、SANetの4段階の階層的出力を統合することで得られ、多スケールのコンテキストを統合し、より高精度なピクセル単位の予測を実現する。PASCAL VOCおよびPASCAL Contextという2つの難易度の高い公開データセットにおける実証実験により、提案手法の有効性が検証された。特に、COCOでの事前学習を用いない条件下でPASCAL VOCにおいて83.2%のmIoUを達成し、PASCAL Contextでは54.4%の最先端（state-of-the-art）のmIoUを記録した。