HyperAI초신경

Parler-TTS의 원클릭 배포

튜토리얼 소개

Parler-TTS는 주어진 화자의 스타일로 고품질의 자연스러운 음성을 생성할 수 있는 가벼운 텍스트-음성(TTS) 모델입니다. 높은 수준의 자유도와 혁신성을 갖추고 있으며, 프롬프트를 통해 화자의 성별, 음색, 음조, 장면(실내, 실외, 도로, 콘서트 홀 등)을 제어할 수 있습니다. 이는 에든버러 대학의 Stability AI와 Dan Lyth, Simon King이 공동으로 작성한 첫 번째 논문입니다. 합성 주석 기능이 포함된 고품질 텍스트-음성의 자연어 가이드"코드를 재생성하세요.

다른 TTS 모델과 달리 Parler-TTS는 완전히 오픈 소스입니다. 모든 데이터 세트, 전처리, 학습 코드 및 가중치는 라이선스에 따라 공개적으로 공개되므로 커뮤니티는 이 튜토리얼의 작업을 바탕으로 강력한 TTS 모델을 개발할 수 있습니다. 참고: 이 모델은 아직 중국어를 지원하지 않습니다.

실행 단계

1. 克隆并启动容器,等待约 30s(加载模型),点击 API 地址即可进入 Web 界面(使用 RTX 4090 即可启动)
2. 输入要生成的文字和风格描述,点击提交即可生成

• 입력 텍스트: 음성으로 변환해야 하는 텍스트

• 설명: 프롬프트와 유사한 오디오 역할, 장면, 톤, 음색 및 기타 정보에 대한 설명입니다. 예를 들어: 남자의 목소리는 매우 시끄러운 배경 속에서 약간 느리게 말하며, 낮은 음조를 띠고 표현력과 활력이 살짝 느껴집니다. 소리가 매우 멀리서 들려서 흥미진진한 분위기를 더해줍니다.

• Parler-TTS 생성: 오디오 파일 생성(청취 및 다운로드 가능)

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓