要約
近年、トランスフォーマーは画像内の長距離空間的依存関係を効果的に表現できる点から、さまざまなコンピュータビジョンタスクに広く採用され、有望な成果を上げている。しかし、自己教師付き深度推定におけるトランスフォーマーの適用に関する研究は依然として極めて限られている。自己教師付き深度学習においてCNNアーキテクチャをトランスフォーマーに置き換える際には、複数スケールの光度損失関数がトランスフォーマーと組み合わさると問題を引き起こすほか、局所的な細部を捉える能力に乏しいという課題に直面する。本論文では、トランスフォーマーが保持するグローバルなコンテキストを維持しつつ、特徴マップにおける微細な詳細を強化するため、ピクセル単位のスキップアテンション(Pixel-Wise Skip Attention: PWSA)というアテンションベースのデコーダーモジュールを提案する。さらに、正しく安定した学習信号を提供することでトランスフォーマー学習の不安定性を軽減するため、単一スケールの光度損失と自己蒸留損失(self-distillation loss)を併用する手法を提案する。実験により、本モデルがグローバルなコンテキストと局所的な詳細の両方を必要とする大規模な物体や細い構造に対しても高精度な深度推定を実現できることを示した。本モデルはKITTIおよびDDADベンチマークにおいて、自己教師付きモノクロmaal深度推定手法の中で最先端の性能を達成した。