2ヶ月前
シーンセグメンテーションのためのデュアルアテンションネットワーク
Jun Fu; Jing Liu; Haijie Tian; Yong Li; Yongjun Bao; Zhiwei Fang; Hanqing Lu

要約
本論文では、自己注意機構に基づいて豊かなコンテキストの依存関係を捉えることでシーンセグメンテーションタスクに取り組んでいます。従来の研究がマルチスケール特徴量融合によってコンテキストを捉えていたのに対し、我々は局所的な特徴量とその全体的な依存関係を適応的に統合するためのデュアルアテンションネットワーク(DANet)を提案します。具体的には、伝統的なディラテッドFCNの上に空間次元とチャネル次元それぞれで意味的な相互依存関係をモデル化する2種類の注意モジュールを追加しました。位置注意モジュールは、各位置における特徴量を全位置の特徴量の重み付き和により選択的に集約します。距離に関わらず類似した特徴量は互いに関連付けられます。一方、チャネル注意モジュールは、すべてのチャネルマップ間で関連する特徴量を統合することで相互依存するチャネルマップを選択的に強調します。2つの注意モジュールの出力を足し合わせることで、さらに高度な特徴表現を実現し、より精密なセグメンテーション結果に貢献しています。我々は3つの困難なシーンセグメンテーションデータセット(Cityscapes, PASCAL Context, COCO Stuff)において新しい最先端のセグメンテーション性能を達成しました。特に、粗いデータを使用せずにCityscapesテストセットにおいてMean IoUスコア81.5%を達成しています。コードと学習済みモデルは公開されており、https://github.com/junfu1115/DANet からアクセスできます。