HyperAIHyperAI

Command Palette

Search for a command to run...

Transformerを用いたアテンションネットワークによる連続的なピクセル単位予測

Guanglei Yang Hao Tang Mingli Ding Nicu Sebe Elisa Ricci

概要

畳み込みニューラルネットワーク(CNN)は、さまざまなコンピュータビジョンタスクにおいて顕著な影響をもたらしたが、畳み込み演算の固有の局所性により、長距離依存関係を明示的にモデル化する能力に限界があることが一般的である。当初は自然言語処理タスク向けに設計されたTransformerは、長距離依存関係を捉えるための内在的なグローバル自己注意機構を備えた代替アーキテクチャとして注目されている。本論文では、畳み込みニューラルネットワークとTransformerの両方の利点を活かす「TransDepth」というアーキテクチャを提案する。Transformerの導入によりネットワークが局所レベルの詳細を捉える能力を失うのを防ぐため、ゲートに基づく注意機構を用いた新たなデコーダーを提案する。特に、本研究は、連続ラベルを伴うピクセル単位の予測問題(すなわち単眼深度推定および表面法線推定)にTransformerを適用した最初の論文である。広範な実験により、提案手法のTransDepthが3つの挑戦的なデータセットにおいて最先端の性能を達成することが示された。本研究のコードは以下のURLから公開されている:https://github.com/ygjwd12345/TransDepth


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています