
초록
우리는 비디오와 오디오에서 오디오-비디오 표현을 학습하기 위한 자기 지도 학습 접근법을 제시합니다. 본 방법은 모달 간 차이를 구별하는 대조적 학습을 사용하여 비디오와 오디오 사이의 차이를 식별하고 그 반대의 경우도 마찬가지입니다. 우리는 모달 내 차이보다는 모달 간 차이를 최적화하는 것이 비디오와 오디오에서 좋은 표현을 학습하는 데 중요하다는 것을 보여줍니다. 이 단순하지만 강력한 통찰력을 바탕으로, 우리의 방법은 행동 인식 작업에 미세 조정(finetuning)할 때 매우 경쟁력 있는 성능을 달성합니다. 또한, 최근의 대조적 학습 연구에서는 양성 샘플과 음성 샘플을 개별 인스턴스로 정의하지만, 우리는 모달 간 일치(cross-modal agreement)를 탐색함으로써 이 정의를 일반화하였습니다. 비디오와 오디오 특징 공간에서 유사성을 측정하여 여러 인스턴스를 양성으로 묶습니다. 모달 간 일치는 더 나은 양성 집합과 음성 집합을 생성하며, 이를 통해 양성 인스턴스의 모달 내 차이를 추구하여 시각적 유사성을 교정하고 하류 작업에서 상당한 향상을 이룰 수 있습니다.