2달 전
TarViS: 대상 기반 비디오 세그멘테이션을 위한 통합 접근법
Ali Athar; Alexander Hermans; Jonathon Luiten; Deva Ramanan; Bastian Leibe

초록
비디오 세그멘테이션의 일반 영역은 현재 여러 벤치마크를 아우르는 다양한 작업으로 분산되어 있습니다. 최신 기술에서 빠른 발전이 이루어지고 있지만, 현재의 방법들은 대부분 특정 작업에 특화되어 있으며 다른 작업으로 개념적으로 일반화할 수 없습니다. 최근 다중 작업 능력을 갖춘 접근 방식들에서 영감을 받아, 우리는 TarViS: 비디오에서 임의로 정의된 '대상'들을 세그멘테이션하는 데 필요한 모든 작업에 적용할 수 있는 새로운 통합 네트워크 구조를 제안합니다. 우리의 접근 방식은 이러한 대상을 어떻게 정의하느냐에 따라 유연하며, 이는 추상적인 '쿼리'로 모델링되어 픽셀 단위로 대상 마스크를 예측하는 데 사용됩니다. 단일 TarViS 모델은 다양한 작업을 포함하는 데이터셋 컬렉션에서 공동으로 훈련될 수 있으며, 추론 시에는 특정 작업에 대한 재훈련 없이 작업 간에 즉시 전환할 수 있습니다. 그 효과를 입증하기 위해, 우리는 TarViS를 비디오 인스턴스 세그멘테이션(VIS), 비디오 팬옵틱 세그멘테이션(VPS), 비디오 객체 세그멘테이션(VOS) 및 포인트 엑셈플러 가이드 트래킹(PET)이라는 네 가지 다른 작업에 적용했습니다. 우리의 통합된 공동 훈련 모델은 이 네 가지 작업을 아우르는 7개 벤치마크 중 5개에서 최고 성능을 달성했으며, 나머지 두 개에서도 경쟁력 있는 성능을 보였습니다. 코드와 모델 가중치는 다음 주소에서 제공됩니다: https://github.com/Ali2500/TarViS