HyperAIHyperAI

Command Palette

Search for a command to run...

웨넷스피치천: 방언 음성 처리를 위한 풍부한 주석을 갖춘 대규모 쓰촨어 어말집

초록

방언에 대한 대규모 오픈소스 데이터의 부족은 음성 기술 분야의 발전을 심각하게 저해하고 있으며, 특히 중국어에서 널리 사용되는 사천어 방언에 있어서 이 문제는 더욱 심각하다. 이러한 핵심적인 격차를 보완하기 위해, 우리는 방언 음성 데이터 처리를 위한 완전한 데이터 처리 프레임워크인 새로운 '사천파이프라인(Chuan-Pipeline)'을 활용하여 구성한 총 1만 시간 분량의 풍부한 주석 정보를 갖춘 어휘 데이터베이스인 WenetSpeech-Chuan을 소개한다. 본 데이터베이스의 효과성을 검증하고 엄격한 평가를 가능하게 하기 위해, 수작업으로 검증된 발음 전사 정보를 포함한 고품질의 음성 인식(ASR) 및 음성 합성(TTS) 벤치마크인 WenetSpeech-Chuan-Eval도 함께 공개한다. 실험 결과, WenetSpeech-Chuan으로 훈련된 모델은 오픈소스 시스템 중에서 최고 수준의 성능을 달성하며, 상용 서비스와 비교 가능한 결과를 보였다. WenetSpeech-Chuan은 사천어 방언 분야에서 가장 큰 오픈소스 데이터베이스로서, 방언 음성 처리 연구에 대한 접근 장벽을 낮추는 동시에 인공지능의 공정성 확보와 음성 기술 내 편향 완화에 핵심적인 역할을 한다. 본 데이터베이스, 벤치마크, 모델 및 관련 자료는 프로젝트 페이지에서 공개되어 누구나 자유롭게 이용할 수 있다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
웨넷스피치천: 방언 음성 처리를 위한 풍부한 주석을 갖춘 대규모 쓰촨어 어말집 | 문서 | HyperAI초신경