3ヶ月前

Transformerベースのセマンティックセグメンテーションのデコーダーの再考:圧縮の視点から

Qishuai Wen, Chun-Guang Li
Transformerベースのセマンティックセグメンテーションのデコーダーの再考:圧縮の視点から
要約

Transformerベースのセマンティックセグメンテーションにおける最先端手法は、通常、画像埋め込みから追加の埋め込みをクロスアテンションを用いて抽出し、自己アテンションによって画像埋め込みおよび/または追加埋め込みのいずれかまたは両方を精緻化し、ドット積を用いて画像埋め込みを追加埋め込みへ射影するTransformerデコーダを採用している。これらの手法は顕著な成功を収めているが、その設計は依然として理論的根拠や解釈を欠いており、より原理的な改善を阻害している。本論文では、セマンティックセグメンテーションと圧縮の間に本質的な関係が存在すること、特にTransformerデコーダと主成分分析(PCA)との間に深い関連があることを主張する。この視点から、原理に基づいたセマンティックセグメンテーションのための白箱型完全アテンション型デコーダ(DEPICT:DEcoder for PrIncipled semantiC segemenTation)を導出する。その解釈は以下の通りである:1)自己アテンション演算子は、教師信号と整合する理想的な主部分空間を構築するため、画像埋め込みを精緻化する;2)クロスアテンション演算子は、精緻化された画像埋め込みの低ランク近似を探索し、これは主部分空間の正規直交基底としての集合であり、予め定義されたクラスに対応するものと期待される;3)ドット積演算は、画像埋め込みのコンパクトな表現を生成し、セグメンテーションマスクとして機能する。ADE20Kデータセットを用いた実験の結果、DEPICTはブラックボックス型の対応手法であるSegmenterを一貫して上回り、軽量かつより高いロバスト性を示した。