Dia-1.6B: 감정 음성 합성 데모
1. 튜토리얼 소개
이 튜토리얼은 단일 RTX 4090 카드에 대한 리소스를 사용하며 현재는 영어 생성만 지원합니다.
👉 이 프로젝트는 다음의 모델을 제공합니다.
- 직경 – 1.6B: 1.6B 매개변수의 텍스트-음성 모델이 있습니다.
2. 프로젝트 예시

2. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.
매개변수 설명:
- 최대 신규 토큰: 생성된 오디오의 길이를 제어합니다.
- CFG 스케일: 생성이 입력 조건을 준수하는 정도를 조정합니다.
- 온도: 생성된 결과의 무작위성을 제어합니다.
- 상위 P: 후보자 선발의 다양성을 통제합니다.
- CFG 필터 상단 K: CFG의 Top K 필터링과 결합하여 관련성과 다양성의 균형을 맞춥니다.
- 속도 계수: 생성된 오디오의 재생 속도나 생성된 리듬을 조정합니다.
사용 방법
생성된 텍스트를 "입력 텍스트"에 입력하고 [S1], [S2] 태그를 사용하여 캐릭터 대화를 구분합니다. 참조 오디오에 서로 다른 두 개의 음색이 있는 경우 각각 S1(첫 번째 음색)과 S2(두 번째 음색)로 표시할 수 있습니다. 캐릭터의 음색은 참조 오디오의 두 음색과 일대일로 대응합니다. 참조 오디오에 소리가 있는 경우 S1(첫 번째 소리)로 표시할 수 있습니다.

교류 및 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
