날짜

7달 전

태그

RTX 5090

Text-to-Audio

라이선스

Apache 2.0

GitHub

nari-labs/dia21.2k

1. 튜토리얼 소개

Dia2-TTS는 nari-labs 팀이 2025년 11월에 발표한 Dia2 대규모 음성 생성 모델(Dia2-2B)을 기반으로 구축된 실시간 음성 합성 서비스입니다. 다중 턴 대화 스크립트 입력, 이중 역할 음성 안내(접두사 음성), 다중 매개변수 제어 샘플링을 지원합니다. Grado를 통해 고품질 대화형 음성 합성을 위한 완벽한 웹 기반 대화형 인터페이스를 제공합니다. Dia2-TTS는 연속적인 다중 턴 대화 스크립트를 직접 입력하여 자연스럽고 일관성 있는 고품질 음성을 생성할 수 있어 가상 고객 서비스, 음성 비서, AI 더빙, 단편 드라마 제작 등의 응용 분야에 적합합니다.

핵심 기능:

다중 턴 대화 음성 합성S1/S2에서 두 캐릭터 간의 연속적인 다중 턴 대화를 지원합니다.
음성 접두사 기반 음색접두사 음성 설정을 통해 캐릭터 목소리의 일관성을 제어합니다.
이중 샘플링 시스템텍스트 및 오디오 샘플링 매개변수는 독립적으로 제어할 수 있습니다.
CFG의 제어 가능한 생성전체 발전 강도의 CFG 스케일 조정을 지원합니다.
타임스탬프 정렬 출력단어 단위 타임스탬프는 후반 작업 자막 및 편집을 용이하게 합니다.
웹 기반 상호작용Grado 기반의 원클릭 온라인 추론 기능.

이 튜토리얼에서는 Grado를 사용하여 Dia2-TTS 실시간 음성 합성 서비스를 배포합니다. 사용되는 컴퓨팅 리소스는 "RTX_5090"으로, 여러 턴으로 구성된 대화 수준의 음성 생성 작업을 원활하게 실행할 수 있습니다. 현재는 영어 대화만 생성할 수 있습니다.

2. 효과 표시

Dia2-TTS는 실제 적용에서 다음과 같은 결과를 얻을 수 있습니다.

다중 턴 대화 음성 합성연속적인 다단계 자연어 대화 생성을 지원합니다.
매우 자연스러운 음성 출력유려한 말투, 자연스러운 멈춤, 그리고 안정적인 감정.
캐릭터 음성 유지음성 접두사를 기반으로 일관된 음색 유지
음성 타임스탬프 출력이 프로그램은 자막 생성, 립싱크 애니메이션 및 2차 편집에 사용할 수 있습니다.
로그 시각화 출력추론 과정과 생성 상태를 완벽하게 보여줍니다.

3. 작업 단계

1. 컨테이너를 시작하세요

컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

2. 시작하기

"Bad Gateway" 메시지가 표시되면 모델이 초기화 중이라는 의미입니다. 1~2분 정도 기다린 후 페이지를 새로고침해 주세요.

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

매개변수 설명

전반적인 음성 제어
- CFG 척도: 텍스트 및 음성 생성의 전반적인 안내 강도를 제어합니다.
텍스트 샘플링 설정
- 텍스트 온도: 텍스트 생성의 무작위성을 제어합니다.
- Text Top-K: 텍스트 샘플링 후보 범위 제어
오디오 샘플링 설정
- 오디오 온도: 오디오 생성의 무작위성을 제어합니다.
- Audio Top-K: 오디오 샘플의 후보 범위를 제어합니다.
음성 접두사 제어
- 접두사 유지: 최종 출력에서 접두사가 붙은 발음을 유지할지 여부.

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

오디오 생성형 AI

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

HyperAI

이 노트북 실행하기 Discord에서 논의하기

날짜

7달 전

태그

RTX 5090

Text-to-Audio

라이선스

Apache 2.0

GitHub

nari-labs/dia21.2k

1. 튜토리얼 소개

핵심 기능:

다중 턴 대화 음성 합성S1/S2에서 두 캐릭터 간의 연속적인 다중 턴 대화를 지원합니다.
음성 접두사 기반 음색접두사 음성 설정을 통해 캐릭터 목소리의 일관성을 제어합니다.
이중 샘플링 시스템텍스트 및 오디오 샘플링 매개변수는 독립적으로 제어할 수 있습니다.
CFG의 제어 가능한 생성전체 발전 강도의 CFG 스케일 조정을 지원합니다.
타임스탬프 정렬 출력단어 단위 타임스탬프는 후반 작업 자막 및 편집을 용이하게 합니다.
웹 기반 상호작용Grado 기반의 원클릭 온라인 추론 기능.

이 튜토리얼에서는 Grado를 사용하여 Dia2-TTS 실시간 음성 합성 서비스를 배포합니다. 사용되는 컴퓨팅 리소스는 "RTX_5090"으로, 여러 턴으로 구성된 대화 수준의 음성 생성 작업을 원활하게 실행할 수 있습니다. 현재는 영어 대화만 생성할 수 있습니다.

2. 효과 표시

Dia2-TTS는 실제 적용에서 다음과 같은 결과를 얻을 수 있습니다.

다중 턴 대화 음성 합성연속적인 다단계 자연어 대화 생성을 지원합니다.
매우 자연스러운 음성 출력유려한 말투, 자연스러운 멈춤, 그리고 안정적인 감정.
캐릭터 음성 유지음성 접두사를 기반으로 일관된 음색 유지
음성 타임스탬프 출력이 프로그램은 자막 생성, 립싱크 애니메이션 및 2차 편집에 사용할 수 있습니다.
로그 시각화 출력추론 과정과 생성 상태를 완벽하게 보여줍니다.

3. 작업 단계

1. 컨테이너를 시작하세요

컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

2. 시작하기

"Bad Gateway" 메시지가 표시되면 모델이 초기화 중이라는 의미입니다. 1~2분 정도 기다린 후 페이지를 새로고침해 주세요.

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

매개변수 설명

전반적인 음성 제어
- CFG 척도: 텍스트 및 음성 생성의 전반적인 안내 강도를 제어합니다.
텍스트 샘플링 설정
- 텍스트 온도: 텍스트 생성의 무작위성을 제어합니다.
- Text Top-K: 텍스트 샘플링 후보 범위 제어
오디오 샘플링 설정
- 오디오 온도: 오디오 생성의 무작위성을 제어합니다.
- Audio Top-K: 오디오 샘플의 후보 범위를 제어합니다.
음성 접두사 제어
- 접두사 유지: 최종 출력에서 접두사가 붙은 발음을 유지할지 여부.

Notebook 개요

수준

입문

주제

오디오 생성형 AI

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

2달 전

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

3달 전

Voxtral 4B TTS 2603 다국어 음성 생성

4달 전

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

5달 전

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

5달 전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

Dia2-TTS: 실시간 음성 합성 서비스

1. 튜토리얼 소개

2. 효과 표시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 시작하기

매개변수 설명

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

Dia2-TTS: 실시간 음성 합성 서비스

1. 튜토리얼 소개

2. 효과 표시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 시작하기

매개변수 설명

Notebook 개요

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

AI로 AI 구축

HyperAI Newsletters

Command Palette

Dia2-TTS: 실시간 음성 합성 서비스

1. 튜토리얼 소개

2. 효과 표시

3. 작업 단계

1. 컨테이너를 시작하세요

2. 시작하기

매개변수 설명

Notebook 개요

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

AI로 AI 구축

HyperAI Newsletters

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모