Command Palette
Search for a command to run...
kyutai-tts-1.6 b-en_fr 오디오 생성
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개
Kyutai TTS 1.6B(en-fr)는 Kyutai 팀에서 2024년 10월 15일에 출시한 대규모 영어-프랑스어 이중 언어 음성 모델입니다. 스트리밍 TTS 벤치마크에서 이 모델은 "긴 텍스트의 실시간 출력" 및 "이중 언어 운율의 자연스러움" 부문에서 기존 오프라인 TTS보다 각각 751 TP3T 및 421 TP3T 더 높은 성능을 보였습니다. 또한 Moshi Benchmark 및 Audio-Language Alignment Dataset과 같은 TTS 벤치마크에서도 최첨단 성능을 달성했습니다. 뿐만 아니라, 이 모델은 입력-출력 스트리밍 생성, 영어와 프랑스어 간 제로샷 전환, 사전 계산된 임베딩 기반 음성 선택, 동적으로 조정되는 오디오 토큰 수를 이용한 빠른 추론 등 기존 시스템에서는 보기 드문 기능들을 제공합니다. 관련 논문 결과는 여기에서 확인할 수 있습니다. 지연 스트림 모델링을 이용한 스트리밍 시퀀스-투-시퀀스 학습.
이 튜토리얼에서는 RTX 4090 그래픽 카드 한 장을 사용합니다. 영어와 프랑스어만 지원됩니다.
2. 프로젝트 예시
표준-tts

스트리밍-tts

3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계
"Bad Gateway" 메시지가 표시되면 모델이 초기화 중인 것입니다. 약 2~3분 정도 기다린 후 페이지를 새로고침해 주세요. Safari 브라우저를 사용하는 경우 오디오가 바로 재생되지 않고 먼저 다운로드해야 할 수 있습니다.

인용 정보
@techreport{kyutai2025streaming,
title={Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling},
author={Neil Zeghidour and Eugene Kharitonov and Manu Orsini and Václav Volhejn and Gabriel de Marmiesse and Edouard Grave and Patrick Pérez and Laurent Mazaré and Alexandre Défossez},
year={2025},
eprint={2509.08753},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2509.08753},
}