다국어 텍스트-음성 변환의 억양과 감정 최적화

최신 텍스트-음성 변환(TTS) 시스템은 단일 언어 환경에서 높은 자연스러움을 실현하고 있지만, 현재의 프레임워크에서 문화적 미묘한 차이로 인해 다국어 억양(특히 인도계 언어)과 상황에 맞는 감정을 정확하게 합성하는 것은 여전히 어려움을 겪고 있습니다. 본 논문에서는 억양을 통합하면서 번역 표기를 유지하고 다중 스케일 감정 모델링을 수행하는 새로운 TTS 아키텍처를 소개합니다. 특히 힌디어와 인도 영어 억양에 최적화되었습니다. 우리의 접근 방식은 언어별 음소 정렬 하이브리드 인코더-디코더 아키텍처와 모국어 화자 말뭉치로 훈련된 문화 감응형 감정 임베딩 레이어를 통합하여 Parler-TTS 모델을 확장합니다. 또한 동적 억양 코드 전환과 잔여 벡터 양자화를 포함시킵니다. 정량적 테스트 결과, 억양 정확도가 23.7% 개선되었으며(단어 오류율이 15.4%에서 11.8%로 감소), 모국어 화자들의 감정 인식 정확도는 85.3%를 기록하여 METTS와 VECL-TTS 베이스라인을 초월했습니다. 이 시스템의 혁신성은 실시간으로 코드를 혼합할 수 있다는 점입니다 - "Namaste, <힌디어 구문>에 대해 이야기해봅시다"와 같은 문장을 억양 변화 없이 생성하면서 감정 일관성을 유지할 수 있습니다. 200명의 사용자를 대상으로 한 주관적 평가는 문화적 적절성에 대한 평균 의견 점수(MOS)가 4.2/5로 기존의 다국어 시스템(p<0.01)보다 크게 우수하다고 보고되었습니다. 이 연구는 크로스-언어 합성을 더 가능하게 만들며, 규모 가능한 억양-감정 분리를 보여주므로 남아시아 교육 기술 및 접근성 소프트웨어에 직접적인 적용이 가능합니다.