
초록
최근 transformer 기반 방법들은 영상 인스턴스 세그멘테이션(VIS)에서 놀라운 성과를 거두었다. 그러나 이러한 최고 성능을 보이는 대부분의 방법들은 전체 영상 클립을 한 번에 처리하는 오프라인 방식으로 동작한다. 이는 UVO와 OVIS와 같은 도전적인 새로운 영상 인스턴스 세그멘테이션 데이터셋에서 등장하는 긴 영상 처리에 적합하지 않다는 문제를 야기한다. 본 연구에서는 YouTube-VIS 2019 벤치마크에서 최고의 오프라인 방법들과 비슷한 성능을 보이며, UVO와 OVIS에서는 훨씬 뛰어난 성능을 발휘하는 완전한 온라인 transformer 기반 영상 인스턴스 세그멘테이션 모델을 제안한다. 이 방법은 ‘로버스트 온라인 영상 세그멘테이션(ROVIS)’이라고 명명되며, 이미지 인스턴스 세그멘테이션 모델인 Mask2Former에 트랙 쿼리(track queries)를 도입한 것이다. 트랙 쿼리는 TrackFormer 방법에서 다중 객체 추적을 위해 처음 도입된 경량 메커니즘으로, 프레임 간 추적 정보를 전달하는 데 사용된다. 본 연구에서는 강력한 이미지 세그멘테이션 아키텍처와 결합할 경우, 트랙 쿼리가 짧은 영상에 제한되지 않고도 놀라운 정확도를 보일 수 있음을 보여준다.