Dia-1.6B: 감정 음성 합성 데모
1. 튜토리얼 소개
Dia-1.6B는 Nari Labs 팀이 2025년 4월 21일에 출시한 텍스트-음성 변환 모델입니다. 텍스트 스크립트에서 바로 매우 사실적인 대화를 생성할 수 있으며 오디오 기반 감정 및 억양 제어를 지원합니다. 또한 Dia-1.6B는 웃음, 기침, 목 가다듬기 등 비언어적 의사소통 소리도 생성할 수 있어 대화를 더 자연스럽고 생동감 있게 만들어줍니다. 이 모델은 다중 역할 대화 생성을 지원할 뿐만 아니라 [S1], [S2]와 같은 라벨을 통해 역할을 구분하고, 단일 샷에서 다중 역할 대화를 생성하고, 자연스러운 리듬과 감정적 전환을 유지할 수 있습니다. 이 프로젝트에서는 사용자가 직접 오디오 샘플을 업로드하는 것도 지원합니다. 이 모델은 샘플을 기반으로 유사한 음성을 생성하여 샘플이 없는 음성 지문 복제를 달성합니다.
이 튜토리얼은 단일 RTX 4090 카드에 대한 리소스를 사용하며 현재는 영어 생성만 지원합니다.
👉 이 프로젝트는 다음의 모델을 제공합니다.
- 직경 – 1.6B: 1.6B 매개변수의 텍스트-음성 모델이 있습니다.
2. 프로젝트 예시

2. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.
"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.

2. 웹페이지에 접속 후 모델과 대화를 시작할 수 있습니다.
매개변수 설명:
- 최대 신규 토큰: 생성된 오디오의 길이를 제어합니다.
- CFG 스케일: 생성이 입력 조건을 준수하는 정도를 조정합니다.
- 온도: 생성된 결과의 무작위성을 제어합니다.
- 상위 P: 후보자 선발의 다양성을 통제합니다.
- CFG 필터 상단 K: CFG의 Top K 필터링과 결합하여 관련성과 다양성의 균형을 맞춥니다.
- 속도 계수: 생성된 오디오의 재생 속도나 생성된 리듬을 조정합니다.
사용 방법
생성된 텍스트를 "입력 텍스트"에 입력하고 [S1], [S2] 태그를 사용하여 캐릭터 대화를 구분합니다. 참조 오디오에 서로 다른 두 개의 음색이 있는 경우 각각 S1(첫 번째 음색)과 S2(두 번째 음색)로 표시할 수 있습니다. 캐릭터의 음색은 참조 오디오의 두 음색과 일대일로 대응합니다. 참조 오디오에 소리가 있는 경우 S1(첫 번째 소리)로 표시할 수 있습니다.

교류 및 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
