Command Palette

Search for a command to run...

DiaMoE-TTS 다중 방언 음성 음성 데이터 세트

날짜

13시간 전

기관

거대 네트워크
칭화대학교

논문 URL

2509.22727

라이선스

CC BY 4.0

Discord 커뮤니티 참여

DiaMoE-TTS는 칭화대학교가 자이언트 인터랙티브와 협력하여 2025년에 공개한 다방언 텍스트 음성 합성(TTS) 작업을 위한 음성 데이터셋입니다. 관련 연구 논문의 제목은 "..."입니다.DiaMoE-TTS: 전문가 혼합 및 매개변수 효율적 제로샷 적응을 갖춘 통합 IPA 기반 방언 TTS 프레임워크목표는 여러 방언에 걸쳐 전달 가능한 음성 모델링과 제로샷 방언 합성 연구를 지원하기 위해 통합된 방언 음성 표현 시스템을 구축하는 것입니다.

이 데이터셋은 여러 오픈소스 방언 음성 자원을 기반으로 구축되었으며, 다양한 방언 코퍼스에서 일관된 음운 주석을 제공하기 위해 통합 음성 표현 체계인 IPA(국제 음성 기호)를 사용합니다. 음성 소스에는 Common Voice 광둥어 데이터셋, 에밀리아 만다린 코퍼스, KeSpeech 코퍼스의 방언 음성, 그리고 오픈소스 민난(호키엔) 음성 데이터셋이 포함됩니다. 데이터 처리 과정에서 모든 음성 샘플은 통합 음소 수준 음성 변환을 거쳐 방언 간에 정렬 가능한 IPA 프런트엔드 주석 시퀀스를 구축했습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp