2달 전

밀도 예측 코딩을 통한 비디오 표현 학습

Tengda Han; Weidi Xie; Andrew Zisserman
밀도 예측 코딩을 통한 비디오 표현 학습
초록

이 논문의 목적은 비디오에서 인간 행동 인식에 적합한 시공간 임베딩을 자기 지도 학습으로 얻는 것입니다. 우리는 세 가지 기여를 합니다: 첫째, 비디오에서 자기 지도 표현 학습을 위한 Dense Predictive Coding (DPC) 프레임워크를 소개합니다. 이 방법은 미래 표현을 순환적으로 예측하여 시공간 블록의 밀집된 인코딩을 학습합니다. 둘째, 점차 시간적 맥락이 줄어들면서 더 먼 미래를 예측하는 커리큘럼 훈련 방안을 제안합니다. 이는 모델이 천천히 변하는 시공간 신호만 인코딩하도록 유도하여 의미론적인 표현을 생성하게 합니다. 셋째, 먼저 Kinetics-400 데이터셋에서 자기 지도 학습으로 DPC 모델을 훈련시키고, 그 다음으로 다운스트림 작업인 행동 인식 작업에서 표현을 미세 조정하여 접근성을 평가합니다. 단일 스트림(RGB만 사용)으로 DPC 사전학습 표현은 UCF101(75.7% 상위 1등 정확도)과 HMDB51(35.7% 상위 1등 정확도)에서 최신 자기 지도 학습 성능을 달성하며, 이전 모든 학습 방법보다 크게 우수하고 ImageNet에서 사전학습된 베이스라인의 성능에 근접합니다.

밀도 예측 코딩을 통한 비디오 표현 학습 | 최신 연구 논문 | HyperAI초신경