2달 전
비디오에서 시각적 표현의 엔드투엔드 학습: 미가공 교육 비디오를 활용한 방법
Miech, Antoine ; Alayrac, Jean-Baptiste ; Smaira, Lucas ; Laptev, Ivan ; Sivic, Josef ; Zisserman, Andrew

초록
비디오 주석 작업은 번거롭고 비용이 많이 들며 확장성이 떨어집니다. 그럼에도 불구하고 많은 강력한 비디오 모델들은 여전히 수동으로 주석 처리된 데이터에 의존하고 있습니다. 최근 HowTo100M 데이터셋의 도입으로, 설명이 있는 비디오는 이제 수동 감독 없이 비디오 표현을 학습할 가능성을 제공합니다. 본 연구에서는 이러한 설명이 있는 비디오에서 고유하게 발생하는 미스얼라이먼트를 해결할 수 있는 새로운 학습 접근법인 MIL-NCE를 제안합니다. 이 접근법을 통해 우리는 어떠한 수동 주석도 필요하지 않게 완전히 처음부터 강력한 비디오 표현을 학습할 수 있게 되었습니다. 우리는 이 표현들을 8개의 데이터셋에 걸쳐 4가지 다양한 다운스트림 작업에서 평가했습니다: 행동 인식(HMDB-51, UCF-101, Kinetics-700), 텍스트-비디오 검색(YouCook2, MSR-VTT), 행동 위치 추정(YouTube-8M Segments, CrossTask) 및 행동 분할(COIN). 우리의 방법은 이러한 작업들에 대한 모든 기존 자기 지도 학습 접근법뿐만 아니라 여러 완전히 지도된 베이스라인보다도 우수한 성능을 보였습니다.