HyperAIHyperAI

Command Palette

Search for a command to run...

온라인 튜토리얼 | 500만 시간 분량의 음성 데이터를 기반으로 Qwen3-TTS는 3초 만에 음성 복제 및 미세 조정을 구현합니다.

Featured Image

생성형 인공지능이 단순히 "텍스트 생성"에 그치지 않고 진정으로 "말하기" 시작한다면, 음성은 단순한 정보 전달 채널에서 프로그래밍 가능하고 변형 가능한 표현 매체로 진화하게 됩니다. 다국어 콘텐츠 제작부터 실시간 음성 비서, 가상 앵커, 몰입형 인터랙티브 시스템에 이르기까지, 텍스트 음성 변환(TTS)은 멀티모달 모델 시스템의 핵심 구성 요소가 되고 있습니다.하지만 기계가 자연스럽고 안정적이며 제어 가능한 방식으로 말하고 스트리밍 시나리오에서 밀리초 수준의 응답 속도를 유지하려면 음향 모델링 기능뿐만 아니라 아키텍처 설계 및 시스템 최적화에 대한 종합적인 역량이 필요합니다.

이러한 기술 발전 과정에서 차세대 모델은 기존 TTS의 한계를 뛰어넘으려 노력하기 시작했으며, 단순히 높은 정확도를 추구하는 것을 넘어 다국어 일반화 능력과 세밀한 제어 능력을 강조하고 있습니다.Qwen 팀이 최근 오픈소스로 공개한 Qwen3-TTS는 듀얼 트랙 언어 모델(LM) 아키텍처를 기반으로 하며, 이를 통해 실시간 음성 합성을 수행하면서 출력 음성을 세밀하게 제어할 수 있습니다.

구체적으로, Qwen3-TTS는 3초 음성 복제 및 설명 기반 음성 제어를 지원합니다. 10개 언어에 걸쳐 500만 시간 이상의 음성 데이터로 학습되었으며 두 개의 음성 토크나이저를 탑재하고 있습니다.

* Qwen-TTS-토크나이저-25Hz:단일 코드북 코덱을 사용하는 이 기술은 의미론적 콘텐츠 표현에 중점을 두고 Qwen-Audio와 원활하게 통합될 수 있으며 블록 단위 DiT를 통해 스트리밍 파형 재구성을 구현합니다.

* Qwen-TTS-토크나이저-12Hz:12.5Hz, 16계층 멀티 코드북 설계와 경량 인과적 컨볼루션 네트워크(causal ConvNet)를 기반으로 극단적인 비트 전송률 압축과 초저지연 스트리밍 출력을 구현하여 97밀리초 만에 첫 번째 패킷을 즉시 출력할 수 있습니다.

광범위한 실험 결과에 따르면 이 모델 시리즈는 TTS 다국어 테스트 세트 및 InstructTTSEval을 포함한 여러 객관적 및 주관적 벤치마크 테스트에서 최첨단(SOTA) 성능을 달성했습니다.

현재 HyperAI 웹사이트의 "튜토리얼" 섹션에 "Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모"가 업로드되었습니다. 3초 음성 복제 기능을 직접 경험해 보세요!

온라인 튜토리얼:

https://go.hyper.ai/1xEOr

논문 보기:

https://go.hyper.ai/1X1F4

데모 실행

1. hyper.ai 홈페이지에 접속한 후 "튜토리얼" 페이지를 선택하거나 "더 많은 튜토리얼 보기"를 클릭하고 "Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모"를 선택한 다음 "이 튜토리얼을 온라인으로 실행"을 클릭합니다.

2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.

참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

3. "NVIDIA GeForce RTX 5090" 및 "PyTorch" 이미지를 선택하고 필요에 따라 "종량제" 또는 "일일 요금제/주간 요금제/월간 요금제"를 선택한 다음 "작업 실행 계속"을 클릭합니다.

HyperAI는 신규 사용자를 위한 등록 혜택을 제공합니다.단 $1로 20시간 동안 RTX 5090의 컴퓨팅 성능을 이용할 수 있습니다(정가 $7).해당 리소스는 영구적으로 유효합니다.

4. 리소스 할당이 완료될 때까지 기다립니다. 상태가 "실행 중"으로 변경되면 "워크스페이스 열기"를 클릭하여 Jupyter 워크스페이스에 들어갑니다.

효과 시연

1. 페이지가 리디렉션된 후 왼쪽의 README 페이지를 클릭하고 상단의 실행을 클릭합니다.

2. 과정이 완료되면 오른쪽에 있는 API 주소를 클릭하여 데모 페이지로 이동하세요.

위는 HyperAI가 이번에 추천하는 튜토리얼입니다. 누구나 와서 체험해 보세요!

튜토리얼 링크:https://go.hyper.ai/1xEOr