2달 전

온라인 적응 컨볼루션 신경망을 이용한 비디오 객체 분할

Paul Voigtlaender; Bastian Leibe
온라인 적응 컨볼루션 신경망을 이용한 비디오 객체 분할
초록

우리는 반감독 비디오 객체 분할 작업을 다룹니다. 즉, 비디오에서 객체에 속하는 픽셀들을 분할하는데, 첫 번째 프레임의 정확한 픽셀 마스크를 사용합니다. 우리는 최근 제안된 원샷 비디오 객체 분할 (One-Shot Video Object Segmentation, OSVOS) 접근법을 기반으로 하여 이 작업을 수행합니다. 이 방법은 사전 학습된 네트워크를 사용하여 첫 번째 프레임에서 미세 조정(fine-tuning)을 진행합니다. OSVOS는 뛰어난 성능을 달성하였지만, 테스트 시 미세 조정된 네트워크를 변경하지 않고 사용하기 때문에 객체의 큰 외관 변화에 적응할 수 없습니다. 이러한 한계를 극복하기 위해, 우리는 온라인으로 네트워크를 업데이트하는 Online Adaptive Video Object Segmentation (OnAVOS) 방안을 제안합니다. 이 방안은 네트워크의 신뢰도와 공간 구성에 따라 선택된 훈련 예제를 사용하여 온라인으로 네트워크를 업데이트합니다. 또한, PASCAL 데이터셋에서 학습된 객체성(objectness)을 기반으로 하는 사전 학습 단계를 추가하였습니다. 우리의 실험 결과는 두 가지 확장이 매우 효과적이며, DAVIS 데이터셋에서 최신 기술(state of the art)보다 우수한 85.7%의 교차-연합(intersection-over-union) 점수를 달성함을 보여줍니다.