2일 전

DiaMoE-TTS: 전문가 혼합 및 파라미터 효율적인 제로샷 적응을 갖춘 통합 IPA 기반 방언 TTS 프레임워크

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

초록

방언은 풍부한 문화적·언어적 다양성을 담고 있지만, 방언용 텍스트-to-음성(TTS) 시스템 구축은 데이터 부족, 일관되지 않은 철자법, 복잡한 발음 변이 등의 이유로 여전히 도전 과제이다. 이러한 문제를 해결하기 위해 우리는 표준화된 음소 표현을 가능하게 하고 그래프엠-음소 불확실성을 해결하는 일관된 IPA 기반 프레임워크인 DiaMoE-TTS를 제안한다. F5-TTS 아키텍처를 기반으로 개발된 본 시스템은 방언 특성을 고려한 Mixture-of-Experts(MoE)를 도입하여 음운론적 차이를 효과적으로 모델링하며, 저랭크 어댑터(LoRA)와 컨디셔닝 어댑터를 활용한 파라미터 효율적인 적응 기법을 적용하여 새로운 방언으로의 빠른 전이를 가능하게 한다. 대규모 또는 전용 자원에 의존하는 기존 접근 방식과 달리, DiaMoE-TTS는 확장 가능하고 오픈 데이터 기반의 합성 시스템을 구현한다. 실험 결과, 자연스럽고 표현력 있는 음성 생성이 가능하며, 몇 시간 분량의 데이터만으로도 미처 경험하지 못한 방언과 복잡한 전문 분야(예: 베이징오페라)에서도 제로샷(zero-shot) 성능을 달성함을 확인하였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

DiaMoE-TTS: 전문가 혼합 및 파라미터 효율적인 제로샷 적응을 갖춘 통합 IPA 기반 방언 TTS 프레임워크

Ziqi Chen Gongyu Chen Yihua Wang Chaofan Ding Zihao Chen Wei-Qiang Zhang

초록

AI로 AI 구축

Hyper Newsletters