2달 전
비디오 객체 분할을 위한 학습 내용 결정
Goutam Bhat; Felix Järemo Lawin; Martin Danelljan; Andreas Robinson; Michael Felsberg; Luc Van Gool; Radu Timofte

초록
비디오 객체 분할(VOS)은 매우 어려운 문제로, 대상 객체가 주어진 첫 프레임 참조 마스크를 통해 추론 중에만 정의되기 때문입니다. 이 제한된 대상 정보를 어떻게 포착하고 활용할 것인가는 여전히 기본적인 연구 질문으로 남아 있습니다. 우리는 이를 해결하기 위해 차별화 가능한 소수 샘플 학습 모듈을 통합한 엔드투엔드 학습이 가능한 VOS 아키텍처를 소개합니다. 이 내부 학습자는 첫 번째 프레임에서의 분할 오류를 최소화하여 대상의 강력한 매개변수 모델을 예측하도록 설계되었습니다. 우리는 표준 소수 샘플 학습 기술을 넘어, 소수 샘플 학습자가 무엇을 배워야 하는지를 학습함으로써 이를 한 단계 더 발전시킵니다. 이는 현재 프레임에서 대상의 풍부한 내부 표현을 얻어, 우리의 접근 방식의 분할 정확도를 크게 향상시키는 데 도움이 됩니다. 우리는 여러 벤치마크에서 광범위한 실험을 수행했습니다. 우리의 접근 방식은 YouTube-VOS 2018 데이터셋에서 전체 점수가 81.5점을 달성하며, 이는 이전 최고 결과보다 2.6% 상대적으로 개선된 성능입니다.