11일 전
BYOL-S: 부트스트래핑을 통한 자기지도 학습 음성 표현 학습
Gasser Elbanna, Neil Scheidwasser-Clow, Mikolaj Kegler, Pierre Beckmann, Karl El Hajal, Milos Cernak

초록
음성 및 음향 특징을 추출하는 방법은 수십 년 전 스펙트럼 분석 분야의 선도적 연구 이후 꾸준히 연구되어 왔다. 최근의 연구는 일반적인 음성 표현을 개발하는 것을 목표로 하고 있다. 예를 들어, 깊은 신경망은 대규모 음성 데이터셋에서 훈련된다면 최적의 임베딩을 추출할 수 있다. 본 연구는 자기지도 학습 기반 기존 방법을 부트스트래핑 방식으로 확장하고, 다양한 인코더 아키텍처를 제안하며, 사전 훈련 데이터셋의 차이가 미치는 영향을 탐구한다. 마지막으로, 수작업으로 설계한 특징과 데이터 기반 학습된 특징을 결합하는 하이브리드 음성 표현을 도출하기 위한 새로운 훈련 프레임워크를 제안한다. 제안된 모든 표현 방법은 HEAR NeurIPS 2021 챌린지의 청각 환경 분류 및 타임스탬프 탐지 작업에서 평가되었다. 실험 결과, 인코더로 컨볼루션 트랜스포머를 사용하는 하이브리드 모델이 대부분의 HEAR 챌린지 과제에서 우수한 성능을 나타냈다.