Orpheus-TTS는 Canopy Labs 팀이 2025년 3월 18일에 출시한 텍스트-음성(TTS) 모델입니다. 이 모델은 자연스럽고 감정적이며 인간 수준에 가까운 음성을 생성할 수 있으며, 제로 샘플 음성 복제 기능을 갖추고 있으며, 사전 학습 없이 특정 음성을 모방할 수 있습니다. 사용자는 태그를 사용하여 음성의 감정 표현을 제어하고 음성의 사실성을 높일 수 있습니다. Orpheus TTS는 약 200밀리초의 낮은 지연 시간을 가지고 있어 실시간 애플리케이션에 적합합니다.
이 튜토리얼에서는 단일 RTX 4090 카드에 대한 리소스를 사용합니다.
2. 프로젝트 예시
3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.
2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.
❗️중요 사용 팁:
온도: 생성의 무작위성과 창의성을 제어합니다.
상위 P: 후보 토큰의 선택 범위를 제어합니다.
반복 페널티: 말에서 반복되는 패턴을 억제합니다.
최대 길이: 생성된 오디오의 지속 시간을 제어합니다.
사용 방법
Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다. 영어의 효과는 중국어의 효과보다 더 좋습니다.
4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓