2달 전

비디오 회전 예측을 통한 자기 지도 시공간 특징 학습

Longlong Jing; Xiaodong Yang; Jingen Liu; Yingli Tian
비디오 회전 예측을 통한 자기 지도 시공간 특징 학습
초록

딥 신경망의 성공은 일반적으로 대규모의 라벨링된 훈련 데이터가 필요하지만, 이는 비용이 많이 들고 특히 동영상 컬렉션의 경우 규모상 실현 가능성이 낮습니다. 이러한 문제를 완화하기 위해 본 논문에서는 3DRotNet을 제안합니다. 3DRotNet은 라벨링되지 않은 동영상에서 시공간 특성을 학습하는 완전히 자기 지도적인 접근 방식입니다. 모든 동영상에 일련의 회전이 적용되며, 이 회전들을 예측하는 사전 작업(pretext task)이 정의됩니다. 이 작업을 수행함으로써 3DRotNet은 실제로 동영상 내의 의미적 개념과 움직임을 이해하도록 훈련됩니다. 즉, 이 방법은 시공간 동영상 표현(spatiotemporal video representation)을 학습하며, 이를 소규모 데이터셋에서 동영상 이해 작업을 개선하는 데 활용할 수 있습니다. 우리의 광범위한 실험 결과는 제안된 프레임워크가 행동 인식 작업에서 효과적이며, 최신 자기 지도적 방법들보다 크게 개선됨을 성공적으로 입증하였습니다. 대규모 데이터셋에서 자기 지도로 사전 훈련된 3DRotNet을 사용하면, 스크래치에서 훈련된 모델과 비교하여 UCF101에서는 인식 정확도가 20.4%, HMDB51에서는 16.7% 각각 향상되었습니다.

비디오 회전 예측을 통한 자기 지도 시공간 특징 학습 | 최신 연구 논문 | HyperAI초신경