2달 전

공간-시간 큐빅 퍼즐을 이용한 자기 지도 비디오 표현 학습

Dahun Kim; Donghyeon Cho; In So Kweon
공간-시간 큐빅 퍼즐을 이용한 자기 지도 비디오 표현 학습
초록

라벨이 부족하거나 전혀 없는 경우, 색상화, 이미지 보정 및 자igsaw 퍼즐과 같은 자기 지도 학습 과제는 여전히 이미지의 시각적 표현 학습에 활용되고 있습니다. 최근에는 이러한 가치 있는 연구 분야가 사람의 라벨링 비용이 더욱 비싼 동영상 영역으로 확장되었습니다. 그러나 대부분의 기존 방법은 동영상 애플리케이션에서 공간-시간 정보를 직접적으로 포착할 수 없는 2D CNN 구조를 기반으로 하고 있습니다. 본 논문에서는 대규모 동영상 데이터셋을 사용하여 3D CNN을 훈련시키기 위한 새로운 자기 지도 학습 과제인 \textit{공간-시간 입체 퍼즐(Space-Time Cubic Puzzles)}을 소개합니다. 이 과제는 네트워크가 순서가 바뀐 3D 공간-시간 채집물을 정렬하도록 요구합니다. \textit{공간-시간 입체 퍼즐}을 완성함으로써, 네트워크는 동영상 프레임의 공간적 특징과 시간적 관계를 동시에 학습하게 되며, 이는 우리의 최종 목표입니다. 실험 결과, 우리가 학습한 3D 표현이 행동 인식 과제로 잘 전이되며, UCF101 및 HMDB51 데이터셋에서 최신 2D CNN 기반 경쟁 모델들을 능가하는 것을 확인하였습니다.

공간-시간 큐빅 퍼즐을 이용한 자기 지도 비디오 표현 학습 | 최신 연구 논문 | HyperAI초신경