2달 전

동작과 외관 통계를 예측하여 비디오의 자기 지도 시공간 표현 학습

Jiangliu Wang; Jianbo Jiao; Linchao Bao; Shengfeng He; Yunhui Liu; Wei Liu
동작과 외관 통계를 예측하여 비디오의 자기 지도 시공간 표현 학습
초록

우리는 인간이 주석을 달지 않은 비디오의 표현 학습 문제를 다룹니다. 이전 연구들은 비디오 데이터를 사용하여 새로운 자기 감독 작업을 설계함으로써 이 문제를 해결하였지만, 학습된 특징은 프레임 단위로 이루어져 있어 많은 비디오 분석 작업에서 필요한 시공간 특징에 적용할 수 없었습니다. 본 논문에서는 비디오 표현을 위한 시공간 특징을 학습하는 새로운 자기 감독 접근법을 제안합니다. 비디오 분류에서 두 스트림 접근법의 성공에 영감을 받아, 입력 비디오 데이터만으로 공간과 시간 차원에서 움직임과 외관 통계량을 회귀하여 시각적 특징을 학습하는 방법을 제안합니다. 구체적으로, 우리는 공간 및 시간 영역에서 간단한 패턴들로부터 통계적 개념(빠른 움직임 영역과 해당 주요 방향, 시공간 색상 다양성, 주요 색상 등)을 추출합니다. 기존의 퍼즐들이 인간에게도 어려웠던 것과 달리, 제안된 접근법은 인간의 고유한 시각적 습관과 일치하므로 쉽게 해결할 수 있습니다. 우리는 C3D를 사용하여 제안된 접근법의 효과성을 검증하기 위해 광범위한 실험을 수행하였습니다. 실험 결과는 제안된 접근법이 비디오 분류 작업에 적용될 때 C3D의 성능을 크게 향상시킬 수 있음을 보여줍니다. 코드는 https://github.com/laura-wang/video_repres_mas에서 제공됩니다.

동작과 외관 통계를 예측하여 비디오의 자기 지도 시공간 표현 학습 | 최신 연구 논문 | HyperAI초신경