Command Palette
Search for a command to run...
웨넷스피치천: 방언 음성 처리를 위한 풍부한 주석을 갖춘 대규모 쓰촨어 어말집
웨넷스피치천: 방언 음성 처리를 위한 풍부한 주석을 갖춘 대규모 쓰촨어 어말집
초록
방언에 대한 대규모 오픈소스 데이터의 부족은 음성 기술 분야의 발전을 심각하게 저해하고 있으며, 특히 중국어에서 널리 사용되는 사천어 방언에 있어서 이 문제는 더욱 심각하다. 이러한 핵심적인 격차를 보완하기 위해, 우리는 방언 음성 데이터 처리를 위한 완전한 데이터 처리 프레임워크인 새로운 '사천파이프라인(Chuan-Pipeline)'을 활용하여 구성한 총 1만 시간 분량의 풍부한 주석 정보를 갖춘 어휘 데이터베이스인 WenetSpeech-Chuan을 소개한다. 본 데이터베이스의 효과성을 검증하고 엄격한 평가를 가능하게 하기 위해, 수작업으로 검증된 발음 전사 정보를 포함한 고품질의 음성 인식(ASR) 및 음성 합성(TTS) 벤치마크인 WenetSpeech-Chuan-Eval도 함께 공개한다. 실험 결과, WenetSpeech-Chuan으로 훈련된 모델은 오픈소스 시스템 중에서 최고 수준의 성능을 달성하며, 상용 서비스와 비교 가능한 결과를 보였다. WenetSpeech-Chuan은 사천어 방언 분야에서 가장 큰 오픈소스 데이터베이스로서, 방언 음성 처리 연구에 대한 접근 장벽을 낮추는 동시에 인공지능의 공정성 확보와 음성 기술 내 편향 완화에 핵심적인 역할을 한다. 본 데이터베이스, 벤치마크, 모델 및 관련 자료는 프로젝트 페이지에서 공개되어 누구나 자유롭게 이용할 수 있다.