
초록
중국어 자음과 모음을 음소로 변환하는 과정(그래피엠-포네믹스 변환, G2P)은 표준 중국어 텍스트-음성 변환(TTS) 시스템의 핵심 구성 요소입니다. 중국어 G2P 변환에서 가장 큰 도전 중 하나는 다음 발음 문자(polyphone)의 발음을 명확히 구분하는 것입니다. 다수의 학술적 노력이 이 문제를 해결하기 위해 이루어졌지만, 아직까지 공정한 비교를 위한 표준 벤치마크로 사용할 수 있는 오픈 데이터셋이 존재하지 않았습니다. 또한, 대부분의 기존 시스템들은 연구자나 실무자가 필요에 따라 중국어 텍스트를 피니ン으로 변환하고자 할 때 쉽게 활용하기 어려웠습니다. 이러한 문제점을 해결하고자 본 연구에서는 99,000개 이상의 문장으로 구성된 새로운 중국어 다음 발음 문자 구분 벤치마크 데이터셋을 소개합니다. 이 데이터셋을 이용하여 간단한 신경망 모델을 훈련시키고, 그 결과가 다른 기존 G2P 시스템들보다 우수함을 확인하였습니다. 마지막으로, 본 프로젝트를 패키지화하여 PyPi에 공유하였습니다.