17일 전
엔드투엔드 트랜스포머를 활용한 비디오 인스턴스 세그멘테이션
Yuqing Wang, Zhaoliang Xu, Xinlong Wang, Chunhua Shen, Baoshan Cheng, Hao Shen, Huaxia Xia

초록
비디오 인스턴스 세그멘테이션(VIS)은 비디오 내 관심 있는 객체 인스턴스에 대해 동시에 분류, 세그멘테이션 및 추적을 수행해야 하는 과제이다. 최근의 방법들은 이 과제를 해결하기 위해 복잡한 파이프라인을 개발해왔다. 본 연구에서는 트랜스포머 기반의 새로운 비디오 인스턴스 세그멘테이션 프레임워크인 VisTR을 제안한다. VisTR은 VIS 과제를 직접적인 엔드 투 엔드 병렬 시퀀스 디코딩/예측 문제로 간주한다. 입력으로 다수의 이미지 프레임으로 구성된 비디오 클립을 받으면, VisTR은 비디오 내 각 인스턴스에 대한 마스크 시퀀스를 순서대로 직접 출력한다. 이 프레임워크의 핵심은 새로운 효과적인 인스턴스 시퀀스 매칭 및 세그멘테이션 전략으로, 인스턴스를 전체 시퀀스 수준에서 통합적으로 감독하고 세그멘테이션한다. VisTR은 인스턴스 세그멘테이션과 추적을 동일한 유사도 학습 관점에서 접근함으로써 전체 파이프라인을 크게 단순화하였으며, 기존의 접근 방식과 크게 다르다. 복잡한 부가 기능 없이도 VisTR은 기존 모든 VIS 모델 중 가장 빠른 속도를 기록하였으며, YouTube-VIS 데이터셋에서 단일 모델을 사용한 방법 중 가장 우수한 성능을 달성하였다. 본 연구에서는 트랜스포머 기반으로 구축된 훨씬 더 단순하고 빠른 비디오 인스턴스 세그멘테이션 프레임워크를 처음으로 제시하며, 경쟁력 있는 정확도를 달성하였다. 우리는 VisTR이 향후 비디오 이해와 관련된 다양한 연구에 긍정적인 영향을 미치기를 기대한다.