17일 전

비디오 시맨틱 세그멘테이션을 위한 로컬 및 글로벌 시계열 컨텍스트 학습

Guolei Sun, Yun Liu, Henghui Ding, Min Wu, Luc Van Gool
비디오 시맨틱 세그멘테이션을 위한 로컬 및 글로벌 시계열 컨텍스트 학습
초록

문맥 정보는 영상 의미 분할(VSS)에서 핵심적인 역할을 한다. 본 논문에서는 VSS를 위한 문맥 정보를 두 가지로 요약한다: 인접 프레임에서 정의되는 국소적 시계열 문맥(LTC, Local Temporal Context)과 전체 영상에서 나타나는 전역적 시계열 문맥(GTC, Global Temporal Context)이다. LTC는 인접 프레임 내의 정적 콘텐츠와 동적 콘텐츠를 각각 반영하는 정적 문맥과 운동 문맥을 포함한다. 기존 연구에서는 정적 문맥과 운동 문맥이 별도로 탐구된 바 있으나, 두 문맥을 동시에 학습하는 연구는 아직 존재하지 않는다(상호 보완적인 특성). 따라서 본 논문에서는 LTC의 통합적 표현을 학습하기 위해 '거시적에서 미시적 특징 탐색(Coarse-to-Fine Feature Mining, CFFM)' 기법을 제안한다. CFFM는 두 가지 구성 요소로 이루어진다: 거시적에서 미시적 특징 조합(Coarse-to-Fine Feature Assembling, CFFA)과 프레임 간 특징 탐색(Cross-frame Feature Mining, CFM). CFFA는 정적 및 운동 문맥을 추상화하며, CFM는 인접 프레임들로부터 유용한 정보를 탐색하여 타겟 특징을 강화한다. 더 나아가 시계열 문맥을 더욱 효과적으로 활용하기 위해, 전체 영상에서 GTC를 추가로 학습하는 CFFM++ 기법을 제안한다. 구체적으로, 영상에서 균일하게 특정 프레임을 샘플링하고, k-means를 이용해 전역적 문맥 프로토타입을 추출한다. 이러한 프로토타입 내의 정보는 CFM를 통해 탐색되어 타겟 특징을 보다 정교하게 개선한다. 주요 벤치마크에서의 실험 결과는 CFFM 및 CFFM++가 최신 기술 대비 우수한 성능을 보임을 입증한다. 본 연구의 코드는 다음 주소에서 공개된다: https://github.com/GuoleiSun/VSS-CFFM

비디오 시맨틱 세그멘테이션을 위한 로컬 및 글로벌 시계열 컨텍스트 학습 | 최신 연구 논문 | HyperAI초신경