MOSS: 텍스트-음성 대화 생성
1. 튜토리얼 소개

MOSS-TTSD는 OpenMOSS 팀이 2025년 6월 20일에 공개한 오픈 소스 이중 언어 음성 대화 합성 모델로, 중국어와 영어를 지원합니다. 두 화자 간의 대화 스크립트를 자연스럽고 표현력이 풍부한 대화 음성으로 변환할 수 있습니다. MOSS-TTSD는 음성 복제 및 장문 단일 세그먼트 음성 생성을 지원하여 AI 팟캐스트 제작에 이상적입니다. 관련 논문 결과는 다음과 같습니다.MOSS-TTSD: 텍스트-음성 대화 생성".
이 튜토리얼에서는 단일 RTX 4090 카드에 대한 리소스를 사용합니다.
2. 프로젝트 예시

3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다린 후 페이지를 새로고침해 주세요. Safari 브라우저를 사용하는 경우 오디오가 바로 재생되지 않을 수 있으므로 재생하기 전에 다운로드해야 합니다.
*이 튜토리얼에서는 "오디오 입력 모드"에서 싱글 플레이어 오디오 생성(싱글)과 2인용 대화 오디오 생성(역할) 중에서 선택할 수 있습니다.


4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@article{moss2025ttsd,
title={Text to Spoken Dialogue Generation},
author={OpenMOSS Team},
year={2025}
}