2달 전

자기 감독 공동 학습을 이용한 비디오 표현 학습

Tengda Han; Weidi Xie; Andrew Zisserman
자기 감독 공동 학습을 이용한 비디오 표현 학습
초록

본 논문의 목적은 시각 정보만을 사용한 자기 감독 비디오 표현 학습입니다. 다음과 같은 기여를 하였습니다: (i) 인스턴스 기반 정보 노이즈 대조 추정(InfoNCE) 훈련에 의미 클래스 양성 샘플을 추가하는 이점에 대해 조사하였으며, 이 형태의 지도 대조 학습이 성능 향상에 명확한 개선을 가져온다는 것을 보였습니다; (ii) 동일한 데이터 소스에서 서로 보완적인 정보, 즉 RGB 스트림과 광학 유동(Optical Flow)을 활용하여 한 뷰에서 다른 뷰의 양성 클래스 샘플을 얻는 새로운 자기 감독 공동 훈련 방안을 제안하였습니다; (iii) 학습된 표현의 품질을 두 가지 다른 다운스트림 작업, 행동 인식 및 비디오 검색에서 철저히 평가하였습니다. 두 경우 모두 제안된 접근법은 최신 또는 타 자기 감독 접근법과 비교 가능한 성능을 보여주며, 훈련 효율성이 크게 높아져 비슷한 성능을 달성하기 위해 필요한 훈련 데이터량이 현저히 적어졌습니다.