17일 전
시계적 효율성 있는 비전 트랜스포머를 활용한 영상 인스턴스 세그멘테이션
Shusheng Yang, Xinggang Wang, Yu Li, Yuxin Fang, Jiemin Fang, Wenyu Liu, Xun Zhao, Ying Shan

초록
최근 비전 트랜스포머는 이미지 수준의 시각 인식 작업에서 막대한 성공을 거두었다. 영상 클립 내의 중요한 시계적 정보를 효과적이고 효율적으로 모델링하기 위해, 영상 인스턴스 세그멘테이션(VIS)을 위한 시간 효율적인 비전 트랜스포머(TeViT)를 제안한다. 기존의 트랜스포머 기반 VIS 방법들과 달리, TeViT는 거의 컨볼루션을 사용하지 않으며, 트랜스포머 백본과 쿼리 기반 영상 인스턴스 세그멘테이션 헤드로 구성된다. 백본 단계에서는 조기 시계적 컨텍스트 통합을 위한 거의 파라미터가 없는 메신저 시프트 메커니즘을 제안한다. 헤드 단계에서는 영상 인스턴스와 쿼리 간의 일대일 대응 관계를 형성하기 위해 파라미터 공유 스파티오타임스페이셜 쿼리 상호작용 메커니즘을 제안한다. 이를 통해 TeViT는 프레임 수준과 인스턴스 수준의 시계적 컨텍스트 정보를 모두 효과적으로 활용하며, 거의 추가적인 계산 비용 없이 강력한 시계적 모델링 능력을 확보한다. YouTube-VIS-2019, YouTube-VIS-2021, OVIS 등 널리 채택된 세 가지 VIS 벤치마크에서 TeViT는 최신 기술 수준의 성능을 달성하면서도 높은 추론 속도를 유지한다. 예를 들어 YouTube-VIS-2019에서 46.6 AP와 68.9 FPS의 성능을 기록하였다. 코드는 https://github.com/hustvl/TeViT 에서 공개되어 있다.