11일 전

시각적 산만성 트랜스포머

Nian Liu, Ni Zhang, Kaiyuan Wan, Ling Shao, Junwei Han
시각적 산만성 트랜스포머
초록

최근 최첨단 주목도 탐지 기법들은 대부분 CNN 기반 아키텍처에 크게 의존하고 있다. 반면 본 연구에서는 컨볼루션 없는 시퀀스-투-시퀀스 관점에서 이 문제를 재고하여, 컨볼루션으로는 달성할 수 없는 장거리 종속성(장거리 의존성)을 모델링함으로써 주목도를 예측하는 새로운 접근법을 제안한다. 구체적으로, RGB 및 RGB-D 주목 대상 탐지(SOD)를 위한 통합 모델인 Visual Saliency Transformer(VST)를 순수한 트랜스포머 기반으로 개발하였다. 이 모델은 이미지 패치를 입력으로 받아, 트랜스포머를 활용하여 이미지 패치 간의 전역적 맥락 정보를 전파한다. 기존 비전 트랜스포머(ViT)에서 사용되는 전통적인 아키텍처와 달리, 다수준 토큰 융합을 도입하고, 트랜스포머 프레임워크 내에서 새로운 토큰 업샘플링 방법을 제안함으로써 고해상도 탐지 결과를 얻는다. 또한, 작업 관련 토큰(task-related tokens)을 도입하고, 새로운 패치-작업-어텐션(patch-task-attention) 메커니즘을 제안함으로써, 토큰 기반 다중 작업 디코더를 개발하여 주목도 탐지와 경계 탐지 작업을 동시에 수행한다. 실험 결과, 본 모델은 RGB 및 RGB-D SOD 기준 데이터셋 모두에서 기존 방법들을 상회하는 성능을 보였다. 특히 중요한 점은, 본 연구의 전체 프레임워크가 SOD 분야에 새로운 시각을 제시할 뿐만 아니라, 트랜스포머 기반 밀집 예측 모델에 대한 새로운 패러다임을 제시했다는 점이다. 코드는 https://github.com/nnizhang/VST 에서 공개되어 있다.

시각적 산만성 트랜스포머 | 최신 연구 논문 | HyperAI초신경