3달 전

애너처 디퓨전을 활용한 비지도 동영상 객체 세그멘테이션

Zhao Yang, Qiang Wang, Luca Bertinetto, Weiming Hu, Song Bai, Philip H.S. Torr
애너처 디퓨전을 활용한 비지도 동영상 객체 세그멘테이션
초록

비지도 영상 객체 분할은 일반적으로 순환 신경망과 광학 흐름 기반의 방법으로 접근되어 왔다. 이러한 접근 방식은 복잡성을 지닌 경우가 많지만, 짧은 시간 간의 시간적 의존성을 선호하기 때문에 오차가 시간이 지남에 따라 누적되며, 결과적으로 드리프트 현상이 발생하기 쉽다. 또한 단순한(정적) 이미지 분할 모델만으로도 이러한 방법들과 경쟁 가능한 성능을 보일 수 있으며, 이는 시간적 의존성 모델링 방식이 재고되어야 함을 시사한다. 이러한 관찰에 영감을 받아, 본 논문에서는 장기적인 시간적 의존성을 효과적으로 모델링하기 위한 간단하면서도 강력한 전략을 탐구한다. [70]의 비국소 연산자에 착안하여, 기준 프레임(‘앵커’ 프레임)의 픽셀 임베딩과 현재 프레임 간의 밀집 대응 관계를 설정하는 기법을 제안한다. 이를 통해 중간 프레임에 의존하지 않고도 임의의 긴 거리에서 쌍별 의존성을 학습할 수 있다. 온라인 지도 정보 없이도 본 방법은 배경을 효과적으로 억제하고, 도전적인 시나리오에서도 정확하게 전경 객체를 분할할 수 있으며, 시간이 지나도 일관된 성능을 유지한다. DAVIS-2016 비지도 방법 리더보드에서 평균 IoU 81.7%를 기록하여 1위를 차지하였으며, 최신의 온라인 반지도 학습 방법들과도 경쟁력을 갖춘다. 또한 FBMS 데이터셋과 ViSal 영상 주목성 데이터셋에서도 본 방법을 평가하여 최신 기술 수준과 경쟁 가능한 결과를 보였다.