17日前
適応的コンテキストネットワークによるシーン解析
Jun Fu, Jing Liu, Yuhang Wang, Yong Li, Yongjun Bao, Jinhui Tang, Hanqing Lu

要約
最近の研究では、シーン解析性能の向上を目指して、さまざまなレベルのコンテキストを探索するアプローチが試みられている。一般的には、設計された優れた畳み込みネットワークを用いて、すべての画素において均等に有用なコンテキストを活用する。しかし、本論文では、各画像内の異なる画素や領域において、コンテキストへの要求が異なり得ることに着目した。この観察に基づき、各画素ごとの要件に応じてグローバルコンテキストとローカルコンテキストを競合的に融合することで、画素に応じたコンテキストを捉える「適応的コンテキストネットワーク(Adaptive Context Network: ACNet)」を提案する。具体的には、ある画素に対して、グローバル特徴とそのローカル特徴の類似度によりグローバルコンテキストの要求度を測定し、その逆数を用いてローカルコンテキストの要求度を評価する。本研究では、提案するグローバルコンテキストモジュールとローカルコンテキストモジュールにより、それぞれの要求度をモデル化し、適応的なコンテキスト特徴を生成する。さらに、ネットワークの異なるレベルに複数のこのようなモジュールを組み込み、複数の適応的コンテキストブロックを構築することで、粗いから細かい段階へと段階的に結果を向上させる。最終的に、包括的な実験評価により、提案手法の有効性が確認され、Cityscapes、ADE20K、PASCAL Context、COCO Stuffの4つの公開データセットにおいて、いずれも新たなSOTA(State-of-the-Art)性能を達成した。