
초록
최근의 연구 동향은 단일 모달 기반 방법에 비해 다중 모달 훈련이 더 우수한 성능을 제공함을 시사하고 있다. 그러나 본 연구에서는 단일 모달 내에서도 다양한 형식을 활용한 훈련을 통해 유사한 성능 향상을 달성할 수 있음을 발견하였다. 특히, 원시 오디오와 그 주파수 영역 표현 간의 일치를 극대화함으로써 오디오 표현을 학습하는 대조 학습(contrastive learning) 프레임워크를 활용하여 연구를 진행하였다. 그 결과, 단일 형식 기반 접근법에 비해 다중 형식 전략을 사용했을 때 유의미한 성능 향상이 나타났다. 더불어, 하류 작업인 AudioSet 및 ESC-50 분류 과제에서 본 연구의 오디오 전용 접근법은 평균 정밀도(mean average precision) 0.376, 정확도(accuracy) 90.5%를 기록하며 각각 새로운 최고 성능(SOTA)을 달성하였다.