17日前

セマンティックセグメンテーションのためのデュアルスーパーレゾリューション学習

{ Yi Shan, Lu Tian, Yousong Zhu, Dong Li, Li Wang}
セマンティックセグメンテーションのためのデュアルスーパーレゾリューション学習
要約

現在の最先端のセマンティックセグメンテーション手法は、高い性能を達成するために高解像度の入力を用いることが一般的であるが、これにより計算コストが大幅に増加し、リソース制約のあるデバイスへの応用が制限される問題がある。本論文では、追加の計算負荷を伴わずにセグメンテーション精度を効果的に向上させる、シンプルかつ柔軟な二ストリームフレームワークである「デュアルスーパーレゾリューション学習(Dual Super-Resolution Learning, DSRL)」を提案する。具体的には、本手法は、セマンティックセグメンテーション用スーパーレゾリューション(Semantic Segmentation Super-Resolution, SSSR)、単一画像スーパーレゾリューション(Single Image Super-Resolution, SISR)、および特徴親和性(Feature Affinity, FA)モジュールの3つの構成要素から構成されており、低解像度の入力でも高解像度の表現を維持しつつ、モデルの計算複雑性を低減することが可能である。さらに、本手法は他のタスクへの容易な拡張が可能であり、たとえば人間のポーズ推定(human pose estimation)などにも応用できる。このシンプルでありながら効果的なアプローチにより、強力な表現能力が得られ、セマンティックセグメンテーションおよび人間のポーズ推定の両タスクにおいて優れた性能が実証されている。特に、CityScapesデータセットにおけるセマンティックセグメンテーションでは、FLOPs(浮動小数点演算量)をほぼ同等に保ったままmIoUを2%以上向上させることができ、FLOPsを70%に削減しても性能を維持できる。人間のポーズ推定においても、FLOPsを同等に保った状態でmAPを2%以上向上させ、FLOPsを30%削減してもmAPを維持することができる。コードおよびモデルは、https://github.com/wanglixilinx/DSRL にて公開されている。