4달 전

대규모 비지도 시공간 표현 학습 연구

Christoph Feichtenhofer; Haoqi Fan; Bo Xiong; Ross Girshick; Kaiming He
대규모 비지도 시공간 표현 학습 연구
초록

우리는 비디오에서 비지도 감독을 받은 시공간 표현 학습에 대한 대규모 연구를 제시합니다. 최근의 네 가지 이미지 기반 프레임워크에 대한 통합적인 관점을 바탕으로, 이러한 모든 방법을 시공간으로 쉽게 일반화할 수 있는 간단한 목표함수를 연구하였습니다. 우리의 목표함수는 동일한 비디오 내에서 시간적으로 지속되는 특징들을 장려하며, 그 간단함에도 불구하고 다음과 같은 측면에서 놀랍게도 잘 작동합니다: (i) 다른 비지도 프레임워크, (ii) 사전 학습 데이터셋, (iii) 다운스트림 데이터셋, 그리고 (iv) 백본 아키텍처. 이 연구로부터 일련의 흥미로운 관찰 결과를 도출하였으며, 예를 들어 60초의 시간 범위即便如此,鼓励长时间持续性仍然有效(장려하는 것이 효과적일 수 있다는 것을 발견했습니다, 예를 들어 시간 범위가 60초인 경우라도). 다중 벤치마크에서 최신 결과뿐만 아니라, 비지도 사전 학습이 지도 학습 대응체보다 우수한 몇 가지 유망한 사례도 보고합니다. 코드는 https://github.com/facebookresearch/SlowFast 에서 제공됩니다.注:在韩语中,“即便如此,鼓励长时间持续性仍然有效”这句话被调整为“장려하는 것이 효과적일 수 있다는 것을 발견했습니다, 예를 들어 시간 범위가 60초인 경우라도”,以更好地符合韩语的表达习惯。