11일 전
시계열 대응을 위한 공동 작업형 자기지도 학습
Xueting Li, Sifei Liu, Shalini De Mello, Xiaolong Wang, Jan Kautz, Ming-Hsuan Yang

초록
본 논문은 비디오에서 자기지도 학습(self-supervised) 방식으로 신뢰할 수 있는 밀도 높은 대응 관계를 학습하는 방법을 제안한다. 우리의 학습 과정은 두 가지 밀접하게 연관된 작업을 통합한다: 큰 이미지 영역의 추적과 연속된 비디오 프레임 간의 세밀한 픽셀 수준의 관계 설정이다. 우리는 공유된 프레임 간 유사도 행렬(shared inter-frame affinity matrix)을 활용하여 두 작업 간의 상호보완적 효과를 극대화한다. 이 행렬은 영역 수준과 픽셀 수준의 비디오 프레임 간 전이를 동시에 모델링한다. 영역 수준의 위치 추정은 검색 영역을 좁혀 세밀한 매칭에서의 모호성을 줄이는 데 기여하며, 반대로 세밀한 매칭은 영역 수준의 위치 추정을 촉진하는 하향식 특징을 제공한다. 제안한 방법은 영상 객체 및 부위 세그멘테이션 전파, 키포인트 추적, 객체 추적 등 다양한 시각적 대응 작업에서 최신 자기지도 학습 방법들을 능가한다. 더욱이, 본 자기지도 학습 방법은 ImageNet에서 사전 훈련된 ResNet-18으로부터 얻은 완전 지도 학습된 유사도 특징 표현을도 초월한다.