11일 전

F2Net: 비지도 동영상 객체 분할을 위한 전경에 주목하는 학습

Daizong Liu, Dongdong Yu, Changhu Wang, Pan Zhou
F2Net: 비지도 동영상 객체 분할을 위한 전경에 주목하는 학습
초록

딥러닝 기반 방법은 비지도 영상 객체 분할 분야에서 큰 진전을 이루었지만, 시각적 유사성, 가림 현상, 외형 변화와 같은 어려운 시나리오는 여전히 효과적으로 다루기 어려운 문제를 안고 있다. 이러한 문제를 완화하기 위해, 전경 객체에 대한 프레임 내 및 프레임 간 세부 정보를 깊이 탐구함으로써 분할 성능을 효과적으로 향상시키는 새로운 F2Net(Focus on Foreground Network)을 제안한다. 구체적으로, 본 연구에서 제안하는 네트워크는 세 가지 주요 구성 요소로 이루어져 있다: 시아메스 인코더 모듈(Siamese Encoder Module), 중심 안내형 외형 확산 모듈(Center Guiding Appearance Diffusion Module), 그리고 동적 정보 융합 모듈(Dynamic Information Fusion Module). 먼저, 쌍의 프레임(기준 프레임과 현재 프레임)에 대한 특징 표현을 추출하기 위해 시아메스 인코더를 활용한다. 이후, 중심 안내형 외형 확산 모듈은 기준 프레임과 현재 프레임 간의 밀도적 대응 관계(인터-프레임 특징), 현재 프레임 내부의 밀도적 대응 관계(인트라-프레임 특징), 그리고 현재 프레임의 원본 의미 특징을 모두 추출하도록 설계된다. 특히, 현재 프레임 내 전경 객체의 중심 위치를 예측하는 중심 예측 브랜치(Center Prediction Branch)를 도입하여 중심 점 정보를 공간적 사전 지식으로 활용함으로써, 인터-프레임 및 인트라-프레임 특징 추출을 강화하고, 결과적으로 특징 표현이 전경 객체에 더욱 집중되도록 한다. 마지막으로, 세 가지 서로 다른 수준의 특징을 자동으로 분석하고 상대적으로 중요한 특징을 선택하는 동적 정보 융합 모듈을 제안한다. DAVIS2016, Youtube-Object, FBMS 데이터셋을 대상으로 수행한 광범위한 실험 결과를 통해, 제안한 F2Net이 기존 최고 성능(SOTA)을 크게 상회하는 우수한 성능을 달성함을 입증하였다.

F2Net: 비지도 동영상 객체 분할을 위한 전경에 주목하는 학습 | 최신 연구 논문 | HyperAI초신경