11일 전

계층적 메모리 매칭 네트워크를 통한 비디오 객체 세그멘테이션

Hongje Seong, Seoung Wug Oh, Joon-Young Lee, Seongwon Lee, Suhyeon Lee, Euntai Kim
계층적 메모리 매칭 네트워크를 통한 비디오 객체 세그멘테이션
초록

우리는 반감독 비디오 객체 세그멘테이션을 위한 계층적 메모리 매칭 네트워크(Hierarchical Memory Matching Network, HMMN)를 제안한다. 최근의 메모리 기반 방법 [33]을 기반으로, 다중 스케일에서 메모리 읽기를 수행하면서 시간적 부드러움을 활용할 수 있도록 두 가지 고급 메모리 읽기 모듈을 제안한다. 먼저, 기존 메모리 기반 방법에서 일반적으로 사용되는 비국소적 밀집 메모리 읽기를 대체하는 커널 유도 메모리 매칭 모듈을 제안한다. 이 모듈은 메모리 읽기 과정에 시간적 부드러움 제약을 도입하여 정확한 메모리 검색을 가능하게 한다. 더 중요한 점은, 계층적 메모리 매칭 기법을 도입하고, 거친 스케일에서의 메모리 읽기를 기반으로 세밀한 스케일에서의 메모리 읽기를 유도하는 top-k 유도 메모리 매칭 모듈을 제안한 것이다. 이를 통해 다중 스케일에서 효율적으로 메모리 읽기를 수행하며, 고수준의 의미적 특징과 저수준의 세부적인 메모리 특징을 동시에 활용하여 정밀한 객체 마스크를 예측할 수 있다. 제안한 네트워크는 DAVIS 2016/2017 검증 세트(90.8% 및 84.7%), YouTube-VOS 2018/2019 검증 세트(82.6% 및 82.5%), 그리고 DAVIS 2017 테스트-개발 세트(78.6%)에서 최신 기준(SOTA) 성능을 달성하였다. 소스 코드와 모델은 온라인에서 공개되어 있다: https://github.com/Hongje/HMMN.

계층적 메모리 매칭 네트워크를 통한 비디오 객체 세그멘테이션 | 최신 연구 논문 | HyperAI초신경