11일 전

커널화된 메모리 네트워크를 이용한 비디오 객체 세그멘테이션

Hongje Seong, Junhyuk Hyun, Euntai Kim
커널화된 메모리 네트워크를 이용한 비디오 객체 세그멘테이션
초록

반감독형 비디오 객체 분할(Semi-supervised video object segmentation, VOS)은 첫 번째 프레임에서 타깃 객체의 정답 세그멘테이션 마스크가 주어졌을 때, 해당 타깃 객체를 비디오 내에서 예측하는 작업이다. 최근 공간-시간 메모리 네트워크(Space-time memory networks, STM)는 반감독형 VOS에 대한 유망한 해결책으로 주목받고 있다. 그러나 STM을 VOS에 적용할 때 중요한 점이 간과되고 있다. 즉, STM은 비국소적(non-local) 구조를 가지지만, VOS 문제 자체는 주로 국소적(local) 특성을 지닌다는 점이다. STM과 VOS 간의 이 불일치를 해결하기 위해, 우리는 커널화된 메모리 네트워크(Kernelized memory network, KMN)를 제안한다. KMN은 실제 비디오 데이터에 학습되기 전에, 이전 연구와 마찬가지로 정적 이미지 데이터를 이용해 사전 학습(pre-training)을 수행한다. 그러나 기존 연구와 달리, 사전 학습 과정에서 '숨기고 찾기(Hide-and-Seek)' 전략을 활용함으로써, 가림 현상 처리와 세그멘테이션 경계 추출 성능을 최적화하였다. 제안된 KMN은 표준 벤치마크에서 기존 최고 성능 모델을 크게 능가하며, DAVIS 2017 테스트-개발 세트에서 +5%의 성능 향상을 기록하였다. 또한, DAVIS 2016 검증 세트에서 프레임당 처리 시간은 0.12초에 불과하며, STM과 비교해 추가적인 계산 부담이 거의 발생하지 않는다.

커널화된 메모리 네트워크를 이용한 비디오 객체 세그멘테이션 | 최신 연구 논문 | HyperAI초신경