17日前
SeMask:意味的にマスクされたTransformerによる意味セグメンテーション
Jitesh Jain, Anukriti Singh, Nikita Orlov, Zilong Huang, Jiachen Li, Steven Walton, Humphrey Shi

要約
画像変換器ネットワークのエンコーダ部における事前学習済みバックボーンのファインチューニングは、セマンティックセグメンテーションタスクにおいて従来のアプローチとして広く用いられてきた。しかし、このようなアプローチでは、エンコーディング段階において画像が持つセマンティック的な文脈情報が無視されてしまうという課題がある。本論文では、ファインチューニングの過程で、事前学習済みの階層型変換器ベースのバックボーンに画像のセマンティック情報を組み込むことで、性能が顕著に向上することを主張する。これを実現するために、セマンティックアテンション操作を用いてエンコーダにセマンティック情報を効果的に組み込む、シンプルかつ効果的なフレームワーク「SeMask」を提案する。さらに、各段階での中間セマンティック事前知識マップに対して教師信号を提供するため、軽量なセマンティックデコーダを訓練中に用いる。実験結果から、セマンティック事前知識の導入が、FLOPsのわずかな増加で、既存の階層型エンコーダの性能を向上させることを実証した。Swim TransformerおよびMix Transformerのバックボーンをエンコーダとして採用し、さまざまなデコーダと組み合わせてSeMaskを統合することで、実証的な裏付けを得た。本フレームワークはADE20Kデータセットにおいて58.25%のmIoUという新たな最先端性能を達成し、CityscapesデータセットではmIoU指標で3%以上の改善を実現した。コードおよびモデルチェックポイントは、https://github.com/Picsart-AI-Research/SeMask-Segmentation にて公開されている。