2달 전

대규모 약간 지도된 사전 학습을 이용한 비디오 동작 인식

Ghadiyaram, Deepti ; Feiszli, Matt ; Tran, Du ; Yan, Xueting ; Wang, Heng ; Mahajan, Dhruv
대규모 약간 지도된 사전 학습을 이용한 비디오 동작 인식
초록

현재 완전 지도 학습 비디오 데이터셋은 몇십만 개의 비디오와 1,000개 미만의 도메인 특화 라벨로 구성되어 있습니다. 이는 고급 비디오 아키텍처의 발전을 저해하고 있습니다. 본 논문에서는 대규모 웹 비디오를 사용하여 행동 인식 작업을 위한 비디오 모델의 사전 학습에 대한 심층 연구를 제시합니다. 우리의 주요 경험적 발견은 노이즈가 있는 소셜 미디어 비디오와 해시태그를 사용하더라도, 매우 큰 규모(6,500만 개 이상의 비디오)에서의 사전 학습이 세 가지 도전적인 공개 행동 인식 데이터셋에서 현존하는 최고 기술 수준을 크게 향상시키는 것입니다.또한, 약간 지도된 비디오 행동 데이터셋 구축과 관련된 세 가지 질문을 검토합니다. 첫째, 행동이 객체와의 상호작용을 포함하는 경우, 전송 학습에 가장 유리하도록 동사-객체 사전 학습 라벨 공간을 어떻게 구성해야 할까요? 둘째, 프레임 기반 모델은 행동 인식에서 상당히 좋은 성능을 보입니다. 이미지 특징에 대한 좋은 사전 학습이 충분할까요, 아니면 시공간 특징에 대한 사전 학습이 최적의 전송 학습을 위해 가치가 있을까요? 마지막으로, 긴 비디오에서는 짧은 비디오보다 일반적으로 행동이 덜 정확하게 위치 결정됩니다. 행동 라벨이 비디오 단위로 제공되는 경우, 일정한 예산 내에서 최상의 성능을 위해 어떤 방법으로 비디오 클립을 선택해야 할까요?

대규모 약간 지도된 사전 학습을 이용한 비디오 동작 인식 | 최신 연구 논문 | HyperAI초신경