WenetSpeech Yue 광둥어 코퍼스 데이터 세트

날짜

11일 전

기관

아이셸
차이나텔레콤
노스웨스턴 폴리테크닉 대학교

발행 주소

huggingface.co

논문 URL

2509.03959

라이선스

非商业用途

WenetSpeech Yue는 2025년 서북공과대학교, 차이나텔레콤 인공지능연구소, 베이징힐셸테크놀로지(Beijing Hill Shell Technology Co., Ltd.) 및 기타 기관에서 출시한 광둥어 음성 인식(ASR) 및 텍스트 음성 합성(TTS)을 위한 다차원 주석이 달린 대규모 음성 코퍼스입니다. 관련 논문 결과는 다음과 같습니다.WenetSpeech-Yue: 다차원 주석이 포함된 대규모 광둥어 음성 코퍼스"는 광둥어 분야의 자원 부족을 메우고 고품질 광둥어 모델에 대한 교육과 평가를 촉진하는 것을 목표로 합니다.

이 데이터셋은 스토리텔링, 엔터테인먼트, 드라마, 문화, Vlog, 해설, 교육, 팟캐스트, 뉴스 등 10개 분야에 걸쳐 약 21,800시간 분량의 광둥어 녹음을 포함하고 있습니다. 광둥어 자동 음성 인식(ASR) 및 텍스트 음성 합성(TTS) 모델의 학습 및 평가는 물론, 실제 언어 상황에서 다양한 분야와 화법 처리에도 적합합니다. 또한, 교차 분야 일반화 기능의 검증 및 평가도 지원합니다.

데이터 구성:

  • 음성 인식 결과
  • 신뢰도 점수: 텍스트 신뢰도, 광둥어 병음 신뢰도 등
  • 화자 속성: 성별, 나이, 화자 ID
  • 음성 품질 지표: SNR 및 DNSMOS 등
  • 시간 주석: 지속 시간, 문자 수준 타임스탬프
  • 확장된 메타데이터: 프로그램 이름, 지역, 링크 및 등록 정보.