4달 전

마스크된 운동 인코딩을 이용한 자기 지도 비디오 표현 학습

Xinyu Sun; Peihao Chen; Liangwei Chen; Changhao Li; Thomas H. Li; Mingkui Tan; Chuang Gan
마스크된 운동 인코딩을 이용한 자기 지도 비디오 표현 학습
초록

비디오 분석을 위해 라벨이 없는 비디오에서 차별적인 비디오 표현을 학습하는 것은 도전적이지만 중요합니다. 최근의 시도들은 마스킹된 영역의 외관 내용을 예측하여 표현 모델을 학습하려고 합니다. 그러나 단순히 외관 내용을 마스킹하고 복원하는 것만으로는 시간적 힌트를 모델링하기에 충분하지 않을 수 있습니다. 이는 외관 내용이 단일 프레임에서 쉽게 재구성될 수 있기 때문입니다. 이러한 제한을 극복하기 위해, 우리는 외관과 운동 정보를 모두 재구성하여 시간적 힌트를 탐색하는 새로운 사전 학습 패러다임인 마스킹된 운동 인코딩(Masked Motion Encoding, MME)을 제시합니다.MME에서는 표현 성능을 개선하기 위한 두 가지 중요한 과제에 초점을 맞춥니다: 1) 여러 프레임에 걸쳐 가능한 장기적인 운동을 잘 표현하는 방법; 그리고 2) 희소 샘플링된 비디오에서 세부적인 시간적 힌트를 얻는 방법입니다. 인간이 객체의 위치 변화와 형태 변화를 추적하여 행동을 인식할 수 있다는 사실에 착안하여, 우리는 마스킹된 영역에서 이러한 두 가지 변화를 나타내는 운동 궤적을 재구성하도록 제안합니다. 또한 희소한 비디오 입력이 주어진 경우, 공간 및 시간 차원에서 밀도 높은 운동 궤적을 재구성하도록 모델에 강제 적용합니다.우리의 MME 패러다임으로 사전 학습된 모델은 장기적이고 세부적인 운동 상세 정보를 예측할 수 있습니다. 코드는 https://github.com/XinyuSun/MME 에서 확인할 수 있습니다.

마스크된 운동 인코딩을 이용한 자기 지도 비디오 표현 학습 | 연구 논문 | HyperAI초신경