2달 전
네트워크 모듈레이션을 통한 효율적인 비디오 객체 분할
Linjie Yang; Yanran Wang; Xuehan Xiong; Jianchao Yang; Aggelos K. Katsaggelos

초록
비디오 객체 분할은 주어진 첫 번째 프레임에 대한 주석만으로 비디오 시퀀스 전체에서 특정 객체를 분할하는 것을 목표로 합니다. 최근의 딥 러닝 기반 접근 방식은 수백회의 그래디언트 디센드 반복을 통해 주석이 달린 프레임에서 일반 목적 분할 모델을 미세 조정(fine-tuning)하여 효과적이라는 것을 발견했습니다. 이러한 방법들이 높은 정확도를 달성함에도 불구하고, 미세 조정 과정은 비효율적이며 실제 응용 프로그램의 요구 사항을 충족시키지 못합니다. 우리는 특정 객체의 외관에 분할 모델을 적응시키기 위해 단일 순방향 패스(forward pass)를 사용하는 새로운 접근 방식을 제안합니다. 구체적으로, 대상 객체의 제한된 시각적 및 공간적 정보를 바탕으로 분할 네트워크의 중간 계층을 조작하기 위한 두 번째 메타 신경망인 모듈레이터(modulator)를 학습하였습니다. 실험 결과, 우리의 접근 방식은 미세 조정 접근 방식보다 70배 더 빠르면서 유사한 정확도를 달성한다는 것을 보여주었습니다.