HyperAI초신경

Step-Audio-TTS-3B 생산 수준 방언 음성 생성 모델

1. 튜토리얼 소개

Step-Audio는 음성 이해와 생성 제어를 통합한 업계 최초의 제품 수준의 오픈 소스 실시간 음성 대화 시스템입니다. Stepfun-AI 팀에 의해 2025년에 오픈 소스로 공개되었습니다. 다국어 생성(예: 중국어, 영어, 일본어), 음성 감정(예: 행복, 슬픔), 방언(예: 광둥어, 쓰촨 방언), 제어 가능한 말하기 속도 및 리듬 스타일, RAP 및 콧노래 등을 지원합니다.

本教程以 Step-Audio-TTS-3B 作为演示,算力资源采用「单卡 RTX4090」。

지원되는 기능:

  • 일반 음성 합성

공식 홈페이지 기본 음성 캐릭터 팅팅을 사전 설정하고 나타의 음성을 추가, 다국어 생성, 감정 표현, 방언 등 다양한 설정 지원

  • 음악 합성

공식 홈페이지 기본 음성 캐릭터 팅팅을 사전 설정하고 네자 음성을 추가, 랩과 흥얼거림 지원

  • 음성 복제

사용자가 사용자 정의 오디오를 업로드하고, 오디오의 텍스트 내용을 입력하고, 필요에 따라 역할 이름을 정의하도록 지원합니다.

2. 작업 단계

1. 컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스에 접속합니다. ("Bad Gateway"가 표시되면 모델이 초기화 중임을 의미합니다. 약 1분 정도 기다린 후 다시 시도해 주세요.)

2. 웹페이지 접속 후 다기능 음성합성을 진행하실 수 있습니다.

1. 일반 음성 합성

일반 음성 합성

2. RAP/허밍 모드

RAP / Hum 모드

3. 음성 복제

음성 복제

팁: 생성될 텍스트 앞에 (RAP) 또는 (humming)을 입력하면 RAP 또는 윙윙거리는 소리의 사운드 클론 효과를 빠르게 생성할 수 있습니다.

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓