2달 전

시공간 트랜스포머를 이용한 시각 추적 학습

Bin Yan; Houwen Peng; Jianlong Fu; Dong Wang; Huchuan Lu
시공간 트랜스포머를 이용한 시각 추적 학습
초록

본 논문에서는 인코더-디코더 트랜스포머를 핵심 구성 요소로 하는 새로운 추적 아키텍처를 제시합니다. 인코더는 대상 객체와 탐색 영역 간의 전역 공간-시간 특성 의존성을 모델링하며, 디코더는 쿼리 임베딩을 학습하여 대상 객체의 공간 위치를 예측합니다. 우리의 방법은 제안(proposals)이나 사전 정의된 앵커(anchors) 없이 객체 추적을 직접적인 바운딩 박스 예측 문제로 변환합니다. 인코더-디코더 트랜스포머를 사용하면, 객체 예측은 객체의 모서리를 직접 추정하는 간단한 완전 컨볼루션 네트워크(full-convolutional network)만으로 이루어집니다. 전체 방법론은 엔드투엔드(end-to-end) 방식이며, 코사인 윈도우(cosine window)나 바운딩 박스 평활화(bounding box smoothing) 등의 후처리 단계가 필요하지 않아 기존 추적 파이프라인을 크게 단순화합니다. 제안된 추적기는 다섯 개의 도전적인 단기 및 장기 벤치마크에서 최고 수준의 성능을 달성하면서 실시간 속도로 작동하며, Siam R-CNN보다 6배 빠릅니다. 코드와 모델은 https://github.com/researchmm/Stark 에 오픈 소스로 제공됩니다.

시공간 트랜스포머를 이용한 시각 추적 학습 | 최신 연구 논문 | HyperAI초신경