16日前

密集予測におけるVision Transformers

René Ranftl, Alexey Bochkovskiy, Vladlen Koltun
密集予測におけるVision Transformers
要約

密なビジョントランスフォーマー(Dense Vision Transformers)を導入する。これは、密度予測タスクのバックボーンとして畳み込みネットワークの代わりにビジョントランスフォーマーを活用するアーキテクチャである。本手法では、ビジョントランスフォーマーの複数の段階から得られたトークンを、さまざまな解像度の画像類似表現に集約し、畳み込みデコーダーを用いて段階的に結合してフル解像度の予測を生成する。トランスフォーマーのバックボーンは、常に一定かつ比較的高い解像度での表現処理を実行し、各段階でグローバルな受容field(受容野)を持つ。この特性により、完全畳み込みネットワークと比較して、より細粒度かつよりグローバルに整合性のある予測が可能となる。実験の結果、特に大量の学習データが利用可能な場合、このアーキテクチャは密度予測タスクにおいて顕著な性能向上を示す。単眼深度推定においては、最先端の完全畳み込みネットワークと比較して、相対性能が最大28%向上することを確認した。セマンティックセグメンテーションへの適用では、ADE20Kデータセットにおいて49.02%のmIoU(平均交差率)を達成し、新たな最先端性能を樹立した。さらに、NYUv2、KITTI、Pascal Contextといったより小さなデータセット上でも、本アーキテクチャは微調整が可能であり、それぞれで新たな最先端の結果を達成した。本研究のモデルは、https://github.com/intel-isl/DPT にて公開されている。

密集予測におけるVision Transformers | 最新論文 | HyperAI超神経