HyperAIHyperAI

Command Palette

Search for a command to run...

kyutai-tts-1.6 b-en_fr 오디오 생성

날짜

5달 전

논문 URL

2509.08753

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

모델 라이선스

Kyutai TTS 1.6B(en-fr)는 Kyutai 팀에서 2024년 10월 15일에 출시한 대규모 영어-프랑스어 이중 언어 음성 모델입니다. 스트리밍 TTS 벤치마크에서 이 모델은 "긴 텍스트의 실시간 출력" 및 "이중 언어 운율의 자연스러움" 부문에서 기존 오프라인 TTS보다 각각 751 TP3T 및 421 TP3T 더 높은 성능을 보였습니다. 또한 Moshi Benchmark 및 Audio-Language Alignment Dataset과 같은 TTS 벤치마크에서도 최첨단 성능을 달성했습니다. 뿐만 아니라, 이 모델은 입력-출력 스트리밍 생성, 영어와 프랑스어 간 제로샷 전환, 사전 계산된 임베딩 기반 음성 선택, 동적으로 조정되는 오디오 토큰 수를 이용한 빠른 추론 등 기존 시스템에서는 보기 드문 기능들을 제공합니다. 관련 논문 결과는 여기에서 확인할 수 있습니다. 지연 스트림 모델링을 이용한 스트리밍 시퀀스-투-시퀀스 학습.

이 튜토리얼에서는 RTX 4090 그래픽 카드 한 장을 사용합니다. 영어와 프랑스어만 지원됩니다.

2. 프로젝트 예시

표준-tts

스트리밍-tts

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"Bad Gateway" 메시지가 표시되면 모델이 초기화 중인 것입니다. 약 2~3분 정도 기다린 후 페이지를 새로고침해 주세요. Safari 브라우저를 사용하는 경우 오디오가 바로 재생되지 않고 먼저 다운로드해야 할 수 있습니다.

인용 정보

@techreport{kyutai2025streaming,
      title={Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling}, 
      author={Neil Zeghidour and Eugene Kharitonov and Manu Orsini and Václav Volhejn and Gabriel de Marmiesse and Edouard Grave and Patrick Pérez and Laurent Mazaré and Alexandre Défossez},
      year={2025},
      eprint={2509.08753},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2509.08753}, 
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp