HyperAIHyperAI

Command Palette

Search for a command to run...

Dia2-TTS: 실시간 음성 합성 서비스

날짜

5달 전

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

짓다

Dia2-TTS는 nari-labs 팀이 2025년 11월에 발표한 Dia2 대규모 음성 생성 모델(Dia2-2B)을 기반으로 구축된 실시간 음성 합성 서비스입니다. 다중 턴 대화 스크립트 입력, 이중 역할 음성 안내(접두사 음성), 다중 매개변수 제어 샘플링을 지원합니다. Grado를 통해 고품질 대화형 음성 합성을 위한 완벽한 웹 기반 대화형 인터페이스를 제공합니다. Dia2-TTS는 연속적인 다중 턴 대화 스크립트를 직접 입력하여 자연스럽고 일관성 있는 고품질 음성을 생성할 수 있어 가상 고객 서비스, 음성 비서, AI 더빙, 단편 드라마 제작 등의 응용 분야에 적합합니다.

핵심 기능:

  • 다중 턴 대화 음성 합성S1/S2에서 두 캐릭터 간의 연속적인 다중 턴 대화를 지원합니다.
  • 음성 접두사 기반 음색접두사 음성 설정을 통해 캐릭터 목소리의 일관성을 제어합니다.
  • 이중 샘플링 시스템텍스트 및 오디오 샘플링 매개변수는 독립적으로 제어할 수 있습니다.
  • CFG의 제어 가능한 생성전체 발전 강도의 CFG 스케일 조정을 지원합니다.
  • 타임스탬프 정렬 출력단어 단위 타임스탬프는 후반 작업 자막 및 편집을 용이하게 합니다.
  • 웹 기반 상호작용Grado 기반의 원클릭 온라인 추론 기능.

이 튜토리얼에서는 Grado를 사용하여 Dia2-TTS 실시간 음성 합성 서비스를 배포합니다. 사용되는 컴퓨팅 리소스는 "RTX_5090"으로, 여러 턴으로 구성된 대화 수준의 음성 생성 작업을 원활하게 실행할 수 있습니다. 현재는 영어 대화만 생성할 수 있습니다.

2. 효과 표시

Dia2-TTS는 실제 적용에서 다음과 같은 결과를 얻을 수 있습니다.

  • 다중 턴 대화 음성 합성연속적인 다단계 자연어 대화 생성을 지원합니다.
  • 매우 자연스러운 음성 출력유려한 말투, 자연스러운 멈춤, 그리고 안정적인 감정.
  • 캐릭터 음성 유지음성 접두사를 기반으로 일관된 음색 유지
  • 음성 타임스탬프 출력이 프로그램은 자막 생성, 립싱크 애니메이션 및 2차 편집에 사용할 수 있습니다.
  • 로그 시각화 출력추론 과정과 생성 상태를 완벽하게 보여줍니다.

3. 작업 단계

1. 컨테이너를 시작하세요

컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

2. 시작하기

"Bad Gateway" 메시지가 표시되면 모델이 초기화 중이라는 의미입니다. 1~2분 정도 기다린 후 페이지를 새로고침해 주세요.

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

매개변수 설명

  • 전반적인 음성 제어
    • CFG 척도: 텍스트 및 음성 생성의 전반적인 안내 강도를 제어합니다.
  • 텍스트 샘플링 설정
    • 텍스트 온도: 텍스트 생성의 무작위성을 제어합니다.
    • Text Top-K: 텍스트 샘플링 후보 범위 제어
  • 오디오 샘플링 설정
    • 오디오 온도: 오디오 생성의 무작위성을 제어합니다.
    • Audio Top-K: 오디오 샘플의 후보 범위를 제어합니다.
  • 음성 접두사 제어
    • 접두사 유지: 최종 출력에서 접두사가 붙은 발음을 유지할지 여부.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp