12일 전
비지도 동영상 객체 분할을 위한 딥 트랜스포트 네트워크
{Bo Liu, Qingshan Liu, Dong Liu, Zicheng Zhao, Kaihua Zhang}

초록
일반적인 비지도 영상 객체 분할 방법은 RGB 프레임과 광학 흐름(optical flow)을 이중 스트림 네트워크를 통해 융합한다. 그러나 이러한 방법은 각 입력 모달리티 내의 방해 요소(잡음)를 처리하지 못하며, 이는 모델 성능을 극도로 저하시킬 수 있다. 본 논문에서는 최적의 구조적 매칭을 통해 입력 모달리티 간의 대응 관계를 설정하면서 방해 신호를 억제하는 새로운 접근을 제안한다. 주어진 영상 프레임에 대해 RGB 이미지와 광학 흐름으로부터 밀집된 국소 특징을 추출하고, 이를 두 개의 복잡한 구조적 표현으로 간주한다. 이후 워셰르슈타인 거리(Wasserstein distance)를 활용하여 한 모달리티의 특징을 다른 모달리티로 이동시키는 전역 최적의 흐름(global optimal flows)을 계산하며, 각 흐름의 크기는 두 국소 특징 간의 정렬 정도를 측정한다. 이 구조적 매칭을 이중 스트림 네트워크에 통합하여 엔드투엔드(end-to-end) 학습이 가능하도록 하기 위해, 입력 비용 행렬을 작은 공간 블록으로 분해하고, 장거리와 단거리 Sinkhorn 계층을 포함하는 미분 가능한 장단거리 Sinkhorn 모듈을 설계하였다. 본 모듈을 전용 이중 스트림 네트워크에 통합하여 TransportNet이라는 모델을 제안한다. 실험 결과, 운동 정보와 시각적 특징 간의 정렬이 주요 영상 객체 분할 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성함을 입증하였다.