12일 전

비지도 동영상 객체 분할을 위한 딥 트랜스포트 네트워크

{Bo Liu, Qingshan Liu, Dong Liu, Zicheng Zhao, Kaihua Zhang}
비지도 동영상 객체 분할을 위한 딥 트랜스포트 네트워크
초록

일반적인 비지도 영상 객체 분할 방법은 RGB 프레임과 광학 흐름(optical flow)을 이중 스트림 네트워크를 통해 융합한다. 그러나 이러한 방법은 각 입력 모달리티 내의 방해 요소(잡음)를 처리하지 못하며, 이는 모델 성능을 극도로 저하시킬 수 있다. 본 논문에서는 최적의 구조적 매칭을 통해 입력 모달리티 간의 대응 관계를 설정하면서 방해 신호를 억제하는 새로운 접근을 제안한다. 주어진 영상 프레임에 대해 RGB 이미지와 광학 흐름으로부터 밀집된 국소 특징을 추출하고, 이를 두 개의 복잡한 구조적 표현으로 간주한다. 이후 워셰르슈타인 거리(Wasserstein distance)를 활용하여 한 모달리티의 특징을 다른 모달리티로 이동시키는 전역 최적의 흐름(global optimal flows)을 계산하며, 각 흐름의 크기는 두 국소 특징 간의 정렬 정도를 측정한다. 이 구조적 매칭을 이중 스트림 네트워크에 통합하여 엔드투엔드(end-to-end) 학습이 가능하도록 하기 위해, 입력 비용 행렬을 작은 공간 블록으로 분해하고, 장거리와 단거리 Sinkhorn 계층을 포함하는 미분 가능한 장단거리 Sinkhorn 모듈을 설계하였다. 본 모듈을 전용 이중 스트림 네트워크에 통합하여 TransportNet이라는 모델을 제안한다. 실험 결과, 운동 정보와 시각적 특징 간의 정렬이 주요 영상 객체 분할 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성함을 입증하였다.

비지도 동영상 객체 분할을 위한 딥 트랜스포트 네트워크 | 최신 연구 논문 | HyperAI초신경