18일 전

강건한 온라인 비디오 인스턴스 세그멘테이션을 위한 트랙 쿼리

Zitong Zhan, Daniel McKee, Svetlana Lazebnik
강건한 온라인 비디오 인스턴스 세그멘테이션을 위한 트랙 쿼리
초록

최근 transformer 기반 방법들은 영상 인스턴스 세그멘테이션(VIS)에서 놀라운 성과를 거두었다. 그러나 이러한 최고 성능을 보이는 대부분의 방법들은 전체 영상 클립을 한 번에 처리하는 오프라인 방식으로 동작한다. 이는 UVO와 OVIS와 같은 도전적인 새로운 영상 인스턴스 세그멘테이션 데이터셋에서 등장하는 긴 영상 처리에 적합하지 않다는 문제를 야기한다. 본 연구에서는 YouTube-VIS 2019 벤치마크에서 최고의 오프라인 방법들과 비슷한 성능을 보이며, UVO와 OVIS에서는 훨씬 뛰어난 성능을 발휘하는 완전한 온라인 transformer 기반 영상 인스턴스 세그멘테이션 모델을 제안한다. 이 방법은 ‘로버스트 온라인 영상 세그멘테이션(ROVIS)’이라고 명명되며, 이미지 인스턴스 세그멘테이션 모델인 Mask2Former에 트랙 쿼리(track queries)를 도입한 것이다. 트랙 쿼리는 TrackFormer 방법에서 다중 객체 추적을 위해 처음 도입된 경량 메커니즘으로, 프레임 간 추적 정보를 전달하는 데 사용된다. 본 연구에서는 강력한 이미지 세그멘테이션 아키텍처와 결합할 경우, 트랙 쿼리가 짧은 영상에 제한되지 않고도 놀라운 정확도를 보일 수 있음을 보여준다.