
초록
본 연구에서는 반감독 비디오 객체 분할을 위한 캡슐 기반 접근법을 제안합니다. 현재의 비디오 객체 분할 방법들은 프레임 기반이며, 종종 프레임 간 시간적 일관성을 포착하기 위해 광학 흐름이 필요하지만 이는 계산하기 어려울 수 있습니다. 이를 해결하기 위해, 참조 프레임과 분할 마스크를 조건으로 하여 여러 프레임을 동시에 분할할 수 있는 비디오 기반 캡슐 네트워크인 CapsuleVOS를 제안합니다. 이 조건화는 주의 기반 효율적인 캡슐 선택을 위한 새로운 라우팅 알고리즘을 통해 수행됩니다. 우리는 비디오 객체 분할에서 두 가지 도전적인 문제를 다룹니다: 1) 작은 객체의 분할과 2) 시간에 따른 객체 가림 현상입니다. 작은 객체의 분할 문제는 비디오의 작은 공간 영역을 처리할 수 있도록 하는 줌 모듈을 통해 해결됩니다. 또한, 이 프레임워크는 객체가 화면 밖으로 이동하거나 가려질 때 추적하는 데 도움이 되는 순환 네트워크 기반의 새로운 메모리 모듈을 활용합니다. 네트워크는 엔드투엔드로 학습되며, 두 개의 벤치마크 비디오 객체 분할 데이터셋에서 그 효과를 입증하였습니다. Youtube-VOS 데이터셋에서는 현재 오프라인 접근법보다 우수한 성능을 보였으며, 경쟁 방법들보다 거의 두 배 빠른 실행 시간을 가지고 있습니다. 코드는 https://github.com/KevinDuarte/CapsuleVOS에서 공개적으로 이용 가능합니다.