HyperAIHyperAI

Command Palette

Search for a command to run...

SoulX-Podcast: 다양한 방언을 지원하는 팟캐스트급 장문 음성 생성 도구.

날짜

5달 전

논문 URL

2510.23541

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

GitHub 스타

SoulX-Podcast는 팟캐스트 스타일의 다중 턴, 다중 화자 대화 음성 생성에 최적화된 모델이며, 기존의 독백 TTS 작업에서도 뛰어난 성능을 보여줍니다.

SoulX-Podcast는 다단계 대화 음성 생성의 자연스러움을 높이기 위해 중국어 표준어, 영어, 그리고 쓰촨어, 허난어, 광둥어 등 다양한 중국어 방언을 지원하는 여러 보조 언어 제어 기능을 통합하여 팟캐스트 스타일의 음성 생성을 더욱 개인화합니다. 관련 기술 세부 사항은 논문에서 확인할 수 있습니다. SoulX-Podcast: 다중 화자, 다중 방언 장편 팟캐스트 음성 생성.

이 튜토리얼에서는 기본 리소스로 RTX 5090 그래픽 카드 하나를 사용합니다.

2. 프로젝트 예시

다음 스크린샷은 OpenBayes 플랫폼에서 실행되는 SoulX-Podcast 웹 UI의 실제 인터페이스를 보여주며, 전체 프로세스를 빠르게 이해하는 데 도움이 됩니다.

방언 시연 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

웹 UI에 접속하면 다음 작업을 수행할 수 있습니다.

  • 두 화자의 참조 오디오를 업로드하세요.
  • 참고 텍스트를 입력하세요(방언 힌트는 선택 사항입니다).
  • 팟캐스트 대화 스크립트 전체를 입력하세요
  • "생성" 버튼을 클릭하세요
  • 최종 생성된 팟캐스트 오디오를 보고 재생하세요.

다음은 작동 예시 스크린샷입니다.

3. 방언 프롬프트 텍스트 사용 단계

모델에 다양한 방언 예시 텍스트를 제공함으로써 생성된 음성의 방언적 자연스러움을 크게 향상시킬 수 있습니다.
이 과정은 4단계의 간단한 절차로 구성되어 있으며 사용하기 쉽습니다.

1단계: 기본 프롬프트 입력을 완료합니다.

S1과 S2에 대한 정보를 각각 업로드하거나 입력하세요.

  • 참조 오디오(프롬프트 오디오)
  • 프롬프트 텍스트 단계는 방언 향상 기능을 활성화하기 전에 화자의 음색, 어조 및 역할 특성을 파악하는 데 사용됩니다.

2단계: 방언 선택

방언 안내 텍스트 선택기를 확장하고 향상시키려는 방언 유형을 선택하세요.
선택이 완료되면 시스템은 해당 방언의 대표적인 예문들을 자동으로 불러옵니다.

3단계: 방언 예시를 선택하세요

S1과 S2에 대해 각각 예문 하나씩을 선택하세요.
예시를 클릭하면 해당 방언의 안내 음성이 입력란에 자동으로 채워집니다. 이러한 예시는 방언 스타일의 안내 음성으로 활용되어 생성된 음성이 더욱 자연스럽고 사실적으로 들리도록 도와줍니다.

4단계: 합성된 텍스트를 입력하고 생성합니다.


4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

프로젝트 지원

@misc{SoulXPodcast,

title = {SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity},
author = {Hanke Xie and Haopeng Lin and Wenxiao Cao and Dake Guo and Wenjie Tian and Jun Wu and Hanlin Wen and Ruixuan Shang and Hongmei Liu and Zhiqi Jiang and Yuepeng Jiang and Wenxi Chen and Ruiqi Yan and Jiale Qian and Yichao Yan and Shunshun Yin and Ming Tao and Xie Chen and Lei Xie and Xinsheng Wang},
year = {2025},
archivePrefix={arXiv},
url = {https://arxiv.org/abs/2510.23541}
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp