Command Palette
Search for a command to run...
Transformerを用いたアテンションネットワークによる連続的なピクセル単位予測
Transformerを用いたアテンションネットワークによる連続的なピクセル単位予測
Guanglei Yang Hao Tang Mingli Ding Nicu Sebe Elisa Ricci
概要
畳み込みニューラルネットワーク(CNN)は、さまざまなコンピュータビジョンタスクにおいて顕著な影響をもたらしたが、畳み込み演算の固有の局所性により、長距離依存関係を明示的にモデル化する能力に限界があることが一般的である。当初は自然言語処理タスク向けに設計されたTransformerは、長距離依存関係を捉えるための内在的なグローバル自己注意機構を備えた代替アーキテクチャとして注目されている。本論文では、畳み込みニューラルネットワークとTransformerの両方の利点を活かす「TransDepth」というアーキテクチャを提案する。Transformerの導入によりネットワークが局所レベルの詳細を捉える能力を失うのを防ぐため、ゲートに基づく注意機構を用いた新たなデコーダーを提案する。特に、本研究は、連続ラベルを伴うピクセル単位の予測問題(すなわち単眼深度推定および表面法線推定)にTransformerを適用した最初の論文である。広範な実験により、提案手法のTransDepthが3つの挑戦的なデータセットにおいて最先端の性能を達成することが示された。本研究のコードは以下のURLから公開されている:https://github.com/ygjwd12345/TransDepth。