17日前
すべてのドメインにはシフトが存在する:パノラマシティックセマンティックセグメンテーションのための歪みを意識したVision Transformerの適応
Jiaming Zhang, Kailun Yang, Hao Shi, Simon Reiß, Kunyu Peng, Chaoxiang Ma, Haodong Fu, Philip H. S. Torr, Kaiwei Wang, Rainer Stiefelhagen

要約
本稿では、画像の歪みおよびオブジェクトの変形という2つの重要な課題により、これまで十分に研究が進んでいなかったパノラマセマンティックセグメンテーションに着目する。この課題に対処するため、まず、オブジェクトの変形および画像歪みを、適応前・適応後を問わず、浅層・深層のいずれの段階でも処理可能な、変形可能なパッチ埋め込み(Deformable Patch Embedding, DPE)および変形可能なMLP(Deformable MLP, DMLPv2)モジュールを搭載した、パノラマセマンティックセグメンテーション向けに拡張されたTransformer、すなわちTrans4PASS+を提案する。第二に、無監督ドメイン適応におけるパノラマセグメンテーションを向上させるために、仮ラベルの補正を導入した相互プロトタイプ適応(Mutual Prototypical Adaptation, MPA)戦略を強化する。第三に、Pinhole-to-Panoramic(Pin2Pan)適応に加えて、9,080枚のパノラマ画像を含む新規データセットSynPASSを構築し、360°画像におけるSynthetic-to-Real(Syn2Real)適応スキームを促進する。広範な実験により、屋内および屋外の複数のシナリオにおいて、Pin2PanおよびSyn2Realの両適応手法を検証した結果、Trans4PASS+は4つのドメイン適応型パノラマセマンティックセグメンテーションベンチマークにおいて、最先端の性能を達成した。コードはhttps://github.com/jamycheung/Trans4PASSにて公開されている。