2달 전

음성 및 비디오 모델의 자기 지도 동기화를 통한 협력적 학습

Bruno Korbar; Du Tran; Lorenzo Torresani
음성 및 비디오 모델의 자기 지도 동기화를 통한 협력적 학습
초록

비디오의 시각적 요소와 청각적 요소 사이에는 자연스러운 상관관계가 존재합니다. 본 연구에서는 이러한 연결성을 활용하여 자기 감독 시간 동기화를 통해 오디오 및 비디오 분석을 위한 일반적이고 효과적인 모델을 학습하였습니다. 우리는 교정된 커리큘럼 학습 방식, 부정 예제의 신중한 선택, 그리고 대조 손실 함수의 사용이 오디오-비디오 쌍의 시간 동기화를 구분하도록 최적화된 모델로부터 강력한 다중 감각 표현을 얻는 데 필수적인 요소임을 입증하였습니다. 추가적인 미세 조정 없이도, 결과적으로 얻어진 오디오 특징은 기존의 오디오 분류 벤치마크(DCASE2014와 ESC-50)에서 최신 기술과 비교해 성능이 우수하거나 유사함을 보여주었습니다. 동시에, 우리의 시각적 서브네트워크는 비디오 기반 행동 인식 모델의 정확도를 향상시키는 매우 효과적인 초기화를 제공합니다: 처음부터 학습하는 것과 비교할 때, 우리의 자기 감독 사전 학습은 UCF101에서 행동 인식 정확도에 +19.9%의 뚜렷한 개선을 가져왔으며, HMDB51에서는 +17.7%의 향상을 보였습니다.

음성 및 비디오 모델의 자기 지도 동기화를 통한 협력적 학습 | 최신 연구 논문 | HyperAI초신경