11일 전
계층적 메모리 매칭 네트워크를 통한 비디오 객체 세그멘테이션
Hongje Seong, Seoung Wug Oh, Joon-Young Lee, Seongwon Lee, Suhyeon Lee, Euntai Kim

초록
우리는 반감독 비디오 객체 세그멘테이션을 위한 계층적 메모리 매칭 네트워크(Hierarchical Memory Matching Network, HMMN)를 제안한다. 최근의 메모리 기반 방법 [33]을 기반으로, 다중 스케일에서 메모리 읽기를 수행하면서 시간적 부드러움을 활용할 수 있도록 두 가지 고급 메모리 읽기 모듈을 제안한다. 먼저, 기존 메모리 기반 방법에서 일반적으로 사용되는 비국소적 밀집 메모리 읽기를 대체하는 커널 유도 메모리 매칭 모듈을 제안한다. 이 모듈은 메모리 읽기 과정에 시간적 부드러움 제약을 도입하여 정확한 메모리 검색을 가능하게 한다. 더 중요한 점은, 계층적 메모리 매칭 기법을 도입하고, 거친 스케일에서의 메모리 읽기를 기반으로 세밀한 스케일에서의 메모리 읽기를 유도하는 top-k 유도 메모리 매칭 모듈을 제안한 것이다. 이를 통해 다중 스케일에서 효율적으로 메모리 읽기를 수행하며, 고수준의 의미적 특징과 저수준의 세부적인 메모리 특징을 동시에 활용하여 정밀한 객체 마스크를 예측할 수 있다. 제안한 네트워크는 DAVIS 2016/2017 검증 세트(90.8% 및 84.7%), YouTube-VOS 2018/2019 검증 세트(82.6% 및 82.5%), 그리고 DAVIS 2017 테스트-개발 세트(78.6%)에서 최신 기준(SOTA) 성능을 달성하였다. 소스 코드와 모델은 온라인에서 공개되어 있다: https://github.com/Hongje/HMMN.