HyperAI초신경

1. 튜토리얼 소개

NeuTTS-Air는 Neuphonic이 2025년 10월에 출시한 종단간 음성 합성 모델(TTS)입니다. 0.5B Qwen LLM 백본과 NeuCodec 오디오 코덱을 기반으로 하며, 온디바이스 배포 및 즉각적인 음성 복제에서 퓨샷 학습(Few-Shot Learning) 기능을 보여줍니다. 시스템 평가 결과, NeuTTS-Air는 오픈소스 모델 중 SOTA 수준에 도달했으며, 특히 초현실적 합성 및 실시간 추론 벤치마크에서 우수한 성능을 보였습니다. 또한 임베디드 에이전트 및 스타일 전송과 같은 새로운 시나리오로 일반화하고, 3초 오디오 복제를 지원하며, 자연스러운 대화 콘텐츠를 생성할 수 있습니다. 사후 학습에서는 GGML/ONNX 지원 및 워터마킹 메커니즘을 도입하여 온디바이스 TTS 및 전력 최적화 평가 분야에서 오픈소스 분야를 선도하고 있으며, 일부 시나리오는 클로즈드 소스 모델과 유사합니다.