2달 전
SpeechBlender: 발음 오류 데이터 생성을 위한 음성 증강 프레임워크
Yassine El Kheir; Shammur Absar Chowdhury; Ahmed Ali; Hamdy Mubarak; Shazia Afzal

초록
제2언어(L2) 발화 데이터의 부족은 오발음 검출 모델을 설계하는 데 있어 주요한 과제입니다. 우리는 이러한 데이터 부족 문제를 해결하기 위해 오발음 오류를 생성하는 세부적인 데이터 증강 파이프라인인 SpeechBlender를 소개합니다. SpeechBlender는 다양한 마스크를 사용하여 음성 단위의 다른 영역을 대상으로 하며, 발음을 증강하면서 원시 음성 신호를 선형 보간(linearly interpolate)합니다. 마스크는 신호의 부드러운 혼합(blending)을 촉진하여 '잘라내기/붙여넣기(Cut/Paste)' 방법보다 더 효과적인 샘플을 생성합니다. 제안된 기술은 Speechocean762에서 음소(phoneme) 수준의 ASR 종속 오발음 검출 모델에 대해 최신 기술(state-of-the-art) 결과를 달성하며, 이전 최신 기술[1]과 비교하여 피어슨 상관계수(Pearson Correlation Coefficient, PCC)가 2.0% 향상되었습니다. 또한, 베이스라인과 비교하여 음소 수준에서 5.0%의 개선을 보였습니다. 아랍어 AraVoiceL2 테스트셋에서도 F1 점수가 4.6% 증가했습니다.