11일 전

자기지도형 시공간 학습: 비디오 클립 순서 예측을 통한 접근

{ Yueting Zhuang, Di Xie, Jian Shao, Zhou Zhao, Jun Xiao, Dejing Xu}
자기지도형 시공간 학습: 비디오 클립 순서 예측을 통한 접근
초록

우리는 비디오의 시간적 순서를 활용하는 자기지도 학습(spaiotemporal learning) 기법을 제안한다. 본 방법은 비디오에서 쪼개진 클립들을 무작위로 재배열한 후, 원래의 순서를 예측함으로써 비디오의 공간-시간적 표현을 학습한다. 이 방법은 비디오의 카테고리 정보가 필요하지 않으며, 이로 인해 무한한 레이블이 없는 비디오 데이터를 활용할 수 있는 잠재력을 지닌다. 기존의 관련 연구들은 프레임(frame)을 사용하지만, 프레임보다 클립(clips)은 비디오의 동적 특성과 더 일치한다. 클립은 순서에 대한 불확실성을 줄이고, 비디오 표현을 학습하는 데 더 적합하다. 본 연구에서는 3차원 합성곱 신경망(3D convolutional neural networks)을 활용하여 클립의 특징을 추출하고, 이러한 특징을 기반으로 실제 순서를 예측한다. 학습된 표현 능력은 최근접 이웃 검색(nearest neighbor retrieval) 실험을 통해 평가된다. 또한, 학습된 네트워크를 사전 학습 모델(pre-trained models)로 사용하여 동작 인식 작업에서 미세 조정(finetuning)을 수행한다. 실험에서는 3가지 유형의 3D 합성곱 신경망을 검증하였으며, 기존의 자기지도 학습 방법 대비 상당한 성능 향상을 달성하였다.

자기지도형 시공간 학습: 비디오 클립 순서 예측을 통한 접근 | 최신 연구 논문 | HyperAI초신경