2달 전
FEELVOS: 비디오 객체 분할을 위한 빠른 엔드투엔드 임베딩 학습
Paul Voigtlaender; Yuning Chai; Florian Schroff; Hartwig Adam; Bastian Leibe; Liang-Chieh Chen

초록
최근 비디오 객체 분할(VOS)에서 성공적인 많은 방법들이 지나치게 복잡하거나 첫 프레임에 대한 미세 조정(fine-tuning)에 크게 의존하거나, 혹은 느리기 때문에 실용적인 활용이 제한적이다. 본 연구에서는 이러한 문제점을 해결하기 위해 FEELVOS를 제안한다. FEELVOS는 단순하고 빠른 방법으로, 미세 조정을 필요로 하지 않는다. 비디오의 각 프레임을 분할하기 위해, FEELVOS는 의미론적 픽셀 단위 임베딩(semantic pixel-wise embedding)과 전역 및 국소 매칭 메커니즘(global and local matching mechanism)을 사용하여 첫 프레임과 이전 프레임에서 현재 프레임으로 정보를 전달한다. 기존 연구와 달리, 우리의 임베딩은 합성곱 신경망(convolutional network)의 내부 가이드로만 사용된다. 새로운 동적 분할 헤드(dynamic segmentation head)를 통해 우리는 교차 엔트로피 손실(cross entropy loss)을 사용하여 다중 객체 분할 작업을 위해 네트워크와 임베딩을 포함하여 end-to-end로 학습시킬 수 있다. 우리는 DAVIS 2017 검증 세트에서 미세 조정 없이 J&F 측정값 71.5%를 달성하여 비디오 객체 분할에서 새로운 최고 수준의 성능을 이룩하였다. 당사는 코드와 모델들을 https://github.com/tensorflow/models/tree/master/research/feelvos 에 공개한다.