17日前

シーンセグメンテーションにおける二重関係認識アテンションネットワーク

{Hanqing Lu, Yongjun Bao, Jie Jiang, Jing Liu, Yong Li, Jun Fu}
要約

本稿では、シーンセグメンテーションのタスクに対応するため、二重関係認識型アテンションネットワーク(Dual Relation-aware Attention Network, DRANet)を提案する。ピクセル単位の認識において、文脈情報を効率的に活用することは極めて重要である。この課題に対処するため、関係認識型アテンション機構に基づいて文脈情報を適応的に捉える手法を採用した。特に、拡張された完全畳み込みネットワーク(dilated fully convolutional network, FCN)の上部に、空間次元およびチャネル次元における文脈依存性をそれぞれモデル化する2種類のアテンションモジュールを追加した。これらのアテンションモジュールでは、任意の2ピクセル間または2チャネル間の意味的関連性をモデル化するために自己アテンション機構(self-attention mechanism)を用いる。各ピクセルまたはチャネルは、他のすべてのピクセルまたはチャネルとの相関に基づいて、適応的に文脈情報を集約することができる。しかし、前述のペアワイズな関連性計算によって引き起こされる計算コストおよびメモリ消費の高さを軽減するため、さらに2種類のコンパクトアテンションモジュールを設計した。コンパクトアテンションモジュールでは、各ピクセルまたはチャネルが少数の集約センター(gathering centers)とのみ関連性を構築し、それらの集約センターを介して対応する文脈情報を取得する。同時に、空間的な詳細情報を選択的に強化するため、クロスレベルゲーティングデコーダ(cross-level gating decoder)を導入した。広範な実験を通じて、本ネットワークの有効性を検証し、Cityscapes、ADE20K、PASCAL Context、COCO Stuffの4つの難易度の高いシーンセグメンテーションデータセットにおいて、新たな最先端(state-of-the-art)のセグメンテーション性能を達成した。特に、追加の粗いラベル付きデータを用いない状態で、Cityscapesテストセットにおいて82.9%のMean IoUスコアを達成した。

シーンセグメンテーションにおける二重関係認識アテンションネットワーク | 最新論文 | HyperAI超神経