15日前

視覚的注意Transformer

Nian Liu, Ni Zhang, Kaiyuan Wan, Ling Shao, Junwei Han
視覚的注意Transformer
要約

現在の最先端の注目度検出手法は、主にCNNベースのアーキテクチャに依存している。一方、我々はこの課題を畳み込みを用いないシーケンス・トゥ・シーケンスの視点から再考し、畳み込みでは実現できない長距離依存関係をモデル化することで注目度を予測するアプローチを提案する。具体的には、純粋なTransformerに基づく新たな統一モデル、すなわち「Visual Saliency Transformer(VST)」を構築した。本モデルはRGBおよびRGB-D用の顕著オブジェクト検出(SOD)の両方に対応しており、画像パッチを入力として、Transformerを用いて画像パッチ間でグローバルなコンテキストを伝達する。従来のVision Transformer(ViT)で用いられるアーキテクチャとは異なり、多レベルのトークン融合を導入し、Transformerフレームワーク内で新しいトークンアップサンプリング手法を提案することで、高解像度の検出結果を達成している。さらに、タスク固有のトークンを導入し、新規のパッチ・タスク・アテンション機構を採用したトークンベースのマルチタスクデコーダを開発し、注目度検出と境界検出を同時に実行している。実験結果から、本モデルはRGBおよびRGB-D SODベンチマークデータセットにおいて、既存手法を上回ることが示された。特に重要な点は、本フレームワークがSOD分野に新たな視点を提供するだけでなく、Transformerを用いた密度予測モデルの新しいパラダイムを示していることである。コードは https://github.com/nnizhang/VST で公開されている。

視覚的注意Transformer | 最新論文 | HyperAI超神経