2달 전
모든 것을 추적하는 분리된 비디오 세그멘테이션
Ho Kei Cheng; Seoung Wug Oh; Brian Price; Alexander Schwing; Joon-Young Lee

초록
비디오 세그멘테이션의 훈련 데이터는 주석화하는 데 비용이 많이 듭니다. 이는 특히 대규모 어휘 설정에서 새로운 비디오 세그멘테이션 작업으로의 엔드투엔드 알고리즘 확장을 방해합니다. 각각의 작업에 대해 비디오 데이터를 훈련시키지 않고도 '어떤 것이라도 추적'하기 위해, 우리는 작업별 이미지 수준 세그멘테이션과 클래스/작업 무관한 양방향 시간 전파로 구성된 분리된 비디오 세그멘테이션 접근법(DEVA)을 개발하였습니다. 이러한 설계 덕분에, 우리는 목표 작업을 위한 이미지 수준 모델(훈련 비용이 더 저렴함)과 한 번만 훈련되어 여러 작업에 일반화되는 보편적인 시간 전파 모델만 필요로 합니다. 이 두 모듈을 효과적으로 결합하기 위해, 우리는 다른 프레임에서의 세그멘테이션 가설들을 일관된 세그멘테이션을 생성하기 위해 (반)온라인 융합을 위한 양방향 전파를 사용합니다. 우리는 이 분리된 공식화가 대규모 어휘 비디오 팬옵틱 세그멘테이션, 오픈 월드 비디오 세그멘테이션, 참조 비디오 세그멘테이션 및 감독되지 않은 비디오 객체 세그멘테이션과 같은 여러 데이터 부족 작업에서 엔드투엔드 접근법보다 유리하다는 것을 보여줍니다. 코드는 다음 링크에서 확인할 수 있습니다: https://hkchengrex.github.io/Tracking-Anything-with-DEVA