
초록
우리는 오디오-비주얼 표현을 학습하기 위한 자기 감독 프레임워크인 크리스크로스(CrissCross)를 소개합니다. 우리의 프레임워크에서는 모달 내 관계와 표준적인 '동기화된' 크로스모달 관계를 학습하는 것 외에도, 크리스크로스는 '비동기화된' 크로스모달 관계도 학습하도록 새로운 개념을 제시합니다. 우리는 시간적 동기화를 완화함으로써 네트워크가 다양한 후속 작업에 유용한 강력한 일반화된 표현을 학습한다는 것을 깊이 있게 연구하였습니다. 제안된 솔루션의 사전 학습을 위해 Kinetics-Sound, Kinetics400, 그리고 AudioSet 등 3개의 서로 다른 크기의 데이터셋을 사용하였습니다. 학습된 표현은 행동 인식, 소리 분류, 그리고 행동 검색 등의 여러 후속 작업에서 평가되었습니다. 실험 결과, 크리스크로스는 UCF101과 HMDB51에서 행동 인식 및 행동 검색, ESC50와 DCASE에서 소리 분류에서 현재 최신 자기 감독 방법들과 비교하여 either 우수한 성능을 보였거나 비슷한 성능을 달성하였습니다. 또한, Kinetics-Sound에서 사전 학습된 경우 완전히 지도된 사전 학습보다 우수한 성능을 나타냈습니다. 코드와 사전 학습된 모델은 프로젝트 웹사이트에서 제공됩니다.注释:在最后一句中,“either”一词在韩语中没有直接对应的表达方式,因此根据上下文进行了适当调整以保持句子流畅。