@article{kim2025supertonic, title={SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System}, author={Kim, Hyeongju and Yang, Jinhyeok and Yu, Yechan and Ji, Seunghun and Morton, Jacob and Bous, Malek and Lee, Sungjae}, journal={arXiv preprint arXiv:2503.23108}, year={2025}, url={[https://arxiv.org/abs/2503.23108](https://arxiv.org/abs/2503.23108)} } @article{kim2025larope, title={Length-Aware Rotary Position Embedding for Text-Speech Alignment}, author={Kim, Hyeongju and Lee, Juheon and Yang, Jinhyeok and Morton, Jacob}, journal={arXiv preprint arXiv:2509.11084}, year={2025}, url={https://arxiv.org/abs/2509.11084} } @article{kim2025spfm, title={Training Flow Matching Models with Reliable Labels via Self-Purification}, author={Kim, Hyeongju and Yu, Yechan and Yi, June Young and Lee, Juheon}, journal={arXiv preprint arXiv:2509.19091}, year={2025}, url={https://arxiv.org/abs/2509.19091} }

날짜

8달 전

태그

RTX 5090

Text-to-Audio

라이선스

MIT

GitHub

supertone-inc/supertonic13.5k

1. 튜토리얼 소개

이 튜토리얼은 공식 Supertone 오픈소스 프로젝트를 기반으로 작성되었습니다.초음속오픈소스 커뮤니티에 기여해 주신 Supertone 팀에게 감사드립니다! ❤️

Supertonic은 Supertone 팀이 2025년 1월에 출시한 네이티브 텍스트 음성 변환(TTS) 엔진입니다. 핵심 추론 계층은 ONNX 런타임을 사용하여 구현되었으며, 특히 저지연성과 높은 동시성 시나리오를 위해 설계되었습니다. 기존의 대규모 TTS 모델과 달리, Supertonic은 고품질 음성 합성을 유지하면서 하드웨어 장벽을 크게 낮추고 데스크톱, 서버, 심지어 엣지 디바이스에서도 완전 오프라인 실시간 추론을 지원합니다. 특히 개인정보 보호 및 보안 요구 사항이 있거나 실시간 대화형 애플리케이션(예: 디지털 휴먼 및 게임 음성 채팅)과의 통합이 필요한 시나리오에 적합합니다.

참고: 이 프로젝트는 현재 영어 텍스트의 음성 합성만 지원합니다.

이 튜토리얼에서는 onnxruntime-gpu 하드웨어 가속과 Grado를 사용하여 밀리초 수준의 영어 음성 합성을 구현하는 시각적 웹 인터페이스를 구축하여 OpenBayes 플랫폼에서 단일 RTX 5090 GPU의 컴퓨팅 성능을 보여줍니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

OpenBayes 콘솔에서 이 공개 튜토리얼을 복제하세요.
컨테이너를 시작합니다. 시스템이 자동으로 RTX 5090 리소스를 할당합니다.
시작 대기: 컨테이너가 시작된 후 백그라운드 스크립트 dependencies.sh CUDA 환경이 자동으로 구성되고 모델이 로드됩니다. 핵심 종속성이 미리 설치되어 있으므로 이 과정은 매우 빠르며, 보통 1~2분밖에 걸리지 않습니다.
애플리케이션에 액세스하려면 컨테이너 상태가 "실행 중"으로 변경된 후 컨테이너 세부 정보 페이지의 오른쪽 상단에 있는 "API 주소" 버튼을 클릭하여 Grado 웹 인터페이스를 엽니다.

2. 웹페이지에 텍스트를 입력하고 음성을 합성합니다.

"잘못된 게이트웨이"가 표시되면 서비스가 시작 중임을 의미합니다. 모델 로딩에 시간이 걸리므로 1~2분 정도 기다린 후 페이지를 새로고침해 주세요.

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

웹 페이지에 접속하면 영어로만 구성된 대화형 인터페이스가 표시됩니다.

기본 사용 단계:

입력 텍스트: 왼쪽 텍스트 상자에 합성하려는 영어 텍스트를 입력하세요. 예: Supertonic은 초고속 텍스트-음성 변환 모델입니다.
음성 스타일: 드롭다운 메뉴에서 사전 설정된 스타일을 선택합니다(예: ...). Male 1 남성의 목소리 또는 Female 1 (여성 목소리)
속도: 슬라이더를 드래그하여 말하는 속도를 조절하세요. 기본값은 1.0입니다.
음성 생성: 생성 버튼을 클릭하세요.
오디오 출력: 잠시만 기다려 주세요. 오른쪽 플레이어가 자동으로 생성된 오디오를 재생합니다. 오른쪽 상단의 다운로드 버튼을 클릭하여 저장할 수도 있습니다. .wav 문서.

인용 정보

@article{kim2025supertonic,
  title={SupertonicTTS: Towards Highly Efficient and Streamlined Text-to-Speech System},
  author={Kim, Hyeongju and Yang, Jinhyeok and Yu, Yechan and Ji, Seunghun and Morton, Jacob and Bous, Malek and Lee, Sungjae},
  journal={arXiv preprint arXiv:2503.23108},
  year={2025},
  url={[https://arxiv.org/abs/2503.23108](https://arxiv.org/abs/2503.23108)}
}

@article{kim2025larope,  
  title={Length-Aware Rotary Position Embedding for Text-Speech Alignment},  
  author={Kim, Hyeongju and Lee, Juheon and Yang, Jinhyeok and Morton, Jacob},  
  journal={arXiv preprint arXiv:2509.11084},  
  year={2025},  
  url={https://arxiv.org/abs/2509.11084}  
}
@article{kim2025spfm,  
  title={Training Flow Matching Models with Reliable Labels via Self-Purification},  
  author={Kim, Hyeongju and Yu, Yechan and Yi, June Young and Lee, Juheon},  
  journal={arXiv preprint arXiv:2509.19091},  
  year={2025},  
  url={https://arxiv.org/abs/2509.19091}  
}

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

오디오 생성형 AI

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

Supertonic: ONNX 기반 고속 TTS 음성 합성 모델

1. 튜토리얼 소개

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 텍스트를 입력하고 음성을 합성합니다.

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

Supertonic: ONNX 기반 고속 TTS 음성 합성 모델

1. 튜토리얼 소개

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 텍스트를 입력하고 음성을 합성합니다.

인용 정보

Notebook 개요

관련 노트북

Supertonic-3: 경량 로컬 다국어 음성 합성 시스템

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

AI로 AI 구축

HyperAI Newsletters

Command Palette

Supertonic: ONNX 기반 고속 TTS 음성 합성 모델

1. 튜토리얼 소개

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 텍스트를 입력하고 음성을 합성합니다.

인용 정보

Notebook 개요

관련 노트북

Supertonic-3: 경량 로컬 다국어 음성 합성 시스템

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

AI로 AI 구축

HyperAI Newsletters

관련 노트북

Supertonic-3: 경량 로컬 다국어 음성 합성 시스템

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

관련 노트북

Supertonic-3: 경량 로컬 다국어 음성 합성 시스템

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모