3ヶ月前

Lawin Transformer:大窓口アテンションを用いたマルチスケール表現によるセマンティックセグメンテーションTransformerの改善

Haotian Yan, Chuang Zhang, Ming Wu
Lawin Transformer:大窓口アテンションを用いたマルチスケール表現によるセマンティックセグメンテーションTransformerの改善
要約

多スケール表現はセマンティックセグメンテーションにおいて極めて重要である。近年、マルチスケールの文脈情報を活用するセマンティックセグメンテーション用畳み込みニューラルネットワーク(CNN)の発展が著しく進展している。一方、視覚変換器(ViT)が画像分類において優れた性能を発揮していることに着目し、最近ではセマンティックセグメンテーション用のViTも多数提案されている。これらの多くは優れた結果を達成しているが、計算効率の点で課題を抱えている。本論文では、窓注意力機構(window attention mechanism)を活用することで、セマンティックセグメンテーション用ViTに多スケール表現を成功裏に導入し、性能と効率の両面で向上を実現した。そのために、大規模な窓注意力(large window attention)を提案する。この機構は、局所的な窓がわずかな計算負荷でより広範な文脈窓を照合できるように設計されており、照合領域とクエリ領域の比率を調整することにより、複数スケールの文脈情報を捉えることが可能となる。さらに、空間ピラミッドプーリング(spatial pyramid pooling)の枠組みを大規模窓注意力と連携させ、セマンティックセグメンテーション用ViT向けに新たなデコーダーとして「large window attention spatial pyramid pooling(LawinASPP)」を提案する。本研究で構築されたViT、すなわちLawin Transformerは、効率的な階層型視覚変換器(HVT)をエンコーダとして、LawinASPPをデコーダとして採用している。実験結果から、Lawin Transformerは既存手法と比較して高い計算効率を示すとともに、Cityscapes(84.4% mIoU)、ADE20K(56.2% mIoU)、COCO-Stuffの各データセットにおいて、新たなSOTA(最良の成果)を達成した。コードは https://github.com/yan-hao-tian/lawin にて公開される予定である。