该教程支持如下模型和功能： 2 个模型检查点： F5-TTS E2 TTS 3 个功能：单人语音生成（Batched TTS）: 根据上传的音频进行文本生成。双人语音生成（Podcast Generation）：根据双人音频模拟双人对话。多种语音类型生成（Multiple Speech-Type Generation）：可根据同一讲话人不同情绪下的音频，生成不同情绪的音频。

@article{chen-etal-2024-f5tts, title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching}, author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen}, journal={arXiv preprint arXiv:2410.06885}, year={2024}, }

날짜

8달 전

태그

RTX 5090

Text-to-Audio

논문 URL

2410.06885

라이선스

CC BY-NC-SA 3.0

GitHub

SWivid/F5-TTS15.0k

1. 튜토리얼 소개

이 튜토리얼에는 F5-TTS와 E2 TTS라는 두 가지 데모 사용 모델이 포함되어 있습니다.

F5-TTS는 상하이 자오퉁 대학교, 케임브리지 대학교, 그리고 지리자동차연구소(닝보)가 공동으로 개발하여 2024년에 오픈소스로 공개한 고성능 텍스트 음성 변환(TTS) 시스템입니다. 스트림 매칭을 이용한 비자기회귀 생성 방식과 확산 변환(DiT) 기술을 결합하여 개발되었습니다. 관련 연구 논문은 온라인에서 확인할 수 있습니다. F5-TTS: 흐름 매칭을 통해 유창하고 충실한 말을 가짜로 만들어내는 동화 작가 이 시스템은 추가적인 지도 학습 없이 제로샷 학습을 통해 원문에서 자연스럽고 유창하며 원문에 충실한 음성을 신속하게 생성할 수 있습니다. F5-TTS는 중국어와 영어를 포함한 다국어 합성을 지원하며, 긴 텍스트에서도 효과적으로 음성을 합성할 수 있습니다. 또한, F5-TTS는 텍스트 내용에 따라 합성 음성의 감정 표현을 조절하는 감정 제어 기능과 사용자가 필요에 따라 재생 속도를 조절할 수 있는 속도 제어 기능을 제공합니다. 이 시스템은 10만 시간 규모의 대규모 데이터셋으로 학습되어 뛰어난 성능과 일반화 능력을 입증했습니다. F5-TTS의 주요 기능은 제로샷 음성 복제, 속도 제어, 감정 제어, 긴 텍스트 합성 및 다국어 지원입니다. 기술적 원리는 스트림 매칭, DiT(Diffusion Transformer), ConvNeXt V2 텍스트 표현 개선, Sway 샘플링 전략 및 엔드투엔드 시스템 설계를 포함합니다. F5-TTS는 오디오북, 음성 비서, 어학 학습, 뉴스 방송, 게임 더빙 등 다양한 분야에 활용될 수 있으며, 다양한 상업적 및 비상업적 용도에 강력한 음성 합성 기능을 제공합니다.

E2 TTS는 "Embarrassingly Easy Text-to-Speech"의 줄임말로, 간소화된 프로세스를 통해 사람 수준의 자연스러움과 화자 유사성을 구현하는 고급 텍스트 음성 변환(TTS) 시스템입니다. E2 TTS의 핵심은 완전한 비자기회귀적 특성에 있습니다. 즉, 단계별 생성 과정 없이 전체 음성 시퀀스를 한 번에 생성할 수 있어 생성 속도를 크게 향상시키면서도 고품질 음성 출력을 유지합니다. 관련 연구 논문은 다음과 같습니다... E2 TTS: 엄청 쉬운 완전 비자기회귀 제로샷 TTSSLT 2024에 채택된 E2 TTS는 텍스트 입력을 패딩 마커가 포함된 문자 시퀀스로 변환합니다. 그런 다음 스트림 매칭 기반의 멜 스펙트로그램 생성기를 사용하여 오디오 패딩 작업을 학습합니다. 기존의 많은 연구와 달리, E2 TTS는 추가 구성 요소(예: 지속 시간 모델, 문자-음소 변환)나 복잡한 기술(예: 단조 정렬 검색)을 필요로 하지 않습니다. 이러한 단순함에도 불구하고, E2 TTS는 Voicebox 및 NaturalSpeech 3을 포함한 기존 연구와 동등하거나 그 이상의 최첨단 제로샷 TTS 기능을 구현합니다. 또한 E2 TTS의 단순성은 입력 표현 방식의 유연성을 제공합니다.

该教程支持如下模型和功能：

2 个模型检查点：

F5-TTS
E2 TTS

3 个功能：

单人语音生成（Batched TTS）: 根据上传的音频进行文本生成。
双人语音生成（Podcast Generation）：根据双人音频模拟双人对话。
多种语音类型生成（Multiple Speech-Type Generation）：可根据同一讲话人不同情绪下的音频，生成不同情绪的音频。

이 튜토리얼에서는 리소스로 단일 RTX 5090 카드를 사용합니다.

2. 프로젝트 예시

1. 일괄 TTS

2. 팟캐스트 세대

3. 다양한 음성 유형 생성

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델 용량이 크므로 약 9분 정도 기다린 후 페이지를 새로 고쳐주세요.

Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

1. 일괄 TTS

매개변수 설명

참조 텍스트: 참조 오디오를 자동으로 변환하려면 비워 두세요. 텍스트를 입력하면 자동 변환 기능이 무시됩니다.
침묵 제거: 이 모델은 특히 오디오가 길면 침묵이 발생하는 경향이 있습니다. 필요한 경우 수동으로 침묵을 제거할 수 있습니다. 이 기능은 실험적인 기능이기 때문에 이상한 결과가 발생할 수 있습니다. 이렇게 하면 빌드 시간도 늘어납니다.
사용자 정의 분할 단어: 분할할 사용자 정의 단어를 쉼표로 구분하여 입력합니다. 기본 목록을 사용하려면 비워 두세요.
속도: 생성된 음성의 속도를 제어합니다.

2. 팟캐스트 세대

3. 다양한 음성 유형 생성

인용 정보

@article{chen-etal-2024-f5tts,
      title={F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching}, 
      author={Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen},
      journal={arXiv preprint arXiv:2410.06885},
      year={2024},
}

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

오디오 생성형 AI

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

F5-E2 TTS는 단 3초 만에 모든 사운드를 복제합니다.

1. 튜토리얼 소개

2. 프로젝트 예시

1. 일괄 TTS

2. 팟캐스트 세대

3. 다양한 음성 유형 생성

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

1. 일괄 TTS

2. 팟캐스트 세대

3. 다양한 음성 유형 생성

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

F5-E2 TTS는 단 3초 만에 모든 사운드를 복제합니다.

1. 튜토리얼 소개

2. 프로젝트 예시

1. 일괄 TTS

2. 팟캐스트 세대

3. 다양한 음성 유형 생성

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

1. 일괄 TTS

2. 팟캐스트 세대

3. 다양한 음성 유형 생성

인용 정보

Notebook 개요

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

AI로 AI 구축

HyperAI Newsletters

Command Palette

F5-E2 TTS는 단 3초 만에 모든 사운드를 복제합니다.

1. 튜토리얼 소개

2. 프로젝트 예시

1. 일괄 TTS

2. 팟캐스트 세대

3. 다양한 음성 유형 생성

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

1. 일괄 TTS

2. 팟캐스트 세대

3. 다양한 음성 유형 생성

인용 정보

Notebook 개요

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

AI로 AI 구축

HyperAI Newsletters

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모

관련 노트북

OmniVoice: 600개 이상의 언어로 고품질 TTS를 지원합니다.

Free-CPU를 사용하여 MOSS-TTS-Nano 배포하기

Voxtral 4B TTS 2603 다국어 음성 생성

MOSS-TTS: 고충실도 다중 장면 음성 생성 모델

Qwen3-TTS: 고품질 제어 가능 다국어 음성 합성 데모