12일 전
데이터 중심 프레임워크를 이용한 러시아어 음성 생성 모델의 음운론적 및 운율론적 과제 해결
Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian

초록
러시아어 음성 합성은 모음 축소, 자음 무성화, 가변적인 강세 패턴, 동형이의어의 애매함, 그리고 비자연스러운 억양 등의 독특한 도전 과제를 제시합니다. 본 논문에서는 Balalaika(발라라이카)라는 새로운 데이터셋을 소개하는데, 이는 2,000시간 이상의 스튜디오 품질 러시아어 음성으로 구성되며, 구두점과 강세 표기 등을 포함한 포괄적인 텍스트 주석이 제공됩니다. 실험 결과에 따르면 Balalaika에서 학습된 모델은 기존 데이터셋에서 학습된 모델보다 음성 합성 및 향상 작업에서 현저히 우수한 성능을 보임을 확인할 수 있었습니다. 우리는 데이터셋 생성 파이프라인, 주석 방법론 및 비교 평가 결과를 상세히 설명합니다.