17일 전

프레임 간 유사성 간의 관계 탐색을 통한 비디오 의미 분할

Guolei Sun, Yun Liu, Hao Tang, Ajad Chhatkuli, Le Zhang, Luc Van Gool
프레임 간 유사성 간의 관계 탐색을 통한 비디오 의미 분할
초록

비디오 의미 분할(VSS)의 핵심은 예측 과정에서 시간 정보를 어떻게 효과적으로 활용하느냐에 있다. 기존 연구들은 주로 프레임 간 유사도를 계산하기 위한 새로운 기법, 예를 들어 광학 흐름(optical flow)이나 어텐션(attention) 기반 기법 개발에 주력해왔다. 반면 본 논문은 이러한 접근과는 다른 관점에서 프레임 간 유사도 간의 관계를 탐색함으로써, 보다 우수한 시간 정보 통합을 가능하게 한다. 우리는 유사도 간의 관계를 단일 스케일 내부 상관관계와 다중 스케일 관계라는 두 가지 측면에서 탐구한다. 전통적인 특징 처리 방식을 영감으로 삼아, 단일 스케일 유사도 정제(Single-scale Affinity Refinement, SAR)와 다중 스케일 유사도 통합(Multi-scale Affinity Aggregation, MAA)을 제안한다. MAA를 실행 가능하게 하기 위해, 유사도 계산 시 각 스케일에 대해 일관성 있는 참조 토큰(Reference Tokens)의 부분 집합을 선택하는 선택적 토큰 마스킹(Selective Token Masking, STM) 전략을 제안하며, 이는 본 방법의 효율성 또한 향상시킨다. 마지막으로, SAR와 MAA를 통해 강화된 프레임 간 유사도를 활용하여 시간 정보를 적응적으로 통합한다. 실험 결과, 제안하는 방법이 최신의 VSS 기법들과 비교해 우수한 성능을 보임을 입증하였다. 코드는 공개되어 있으며, https://github.com/GuoleiSun/VSS-MRCFA 에서 확인할 수 있다.