HyperAI초신경

F5-E2 TTS는 단 3초 만에 모든 사운드를 복제합니다.

F5-TTS: 음성 복제, 2인 대화, 다중 톤 믹싱

튜토리얼 소개

该教程仅需 RTX 4090 即可启动。

이 튜토리얼에는 F5-TTS와 E2 TTS라는 두 가지 데모 사용 모델이 포함되어 있습니다.

F5-TTS는 상하이 교통대학교, 케임브리지 대학교, 지리 자동차 연구소(닝보) 유한회사가 2024년에 공동으로 오픈 소스로 공개하는 고성능 텍스트-음성(TTS) 시스템입니다. 스트림 매칭을 기반으로 하는 비자기회귀 생성 방법과 확산 변환기(DiT) 기술을 결합했습니다. 관련 논문 결과는 다음과 같습니다.F5-TTS: 흐름 매칭을 통해 유창하고 충실한 말을 가짜로 만들어내는 동화 작가". 이 시스템은 추가적인 지도 없이 제로샷 학습을 통해 원문에 자연스럽고 유창하며 충실한 음성을 빠르게 생성할 수 있습니다. F5-TTS는 중국어와 영어를 포함한 다국어 합성을 지원하며, 장문 텍스트에 대해서도 효과적인 음성 합성을 수행할 수 있습니다. 또한, F5-TTS는 텍스트 내용에 따라 합성된 음성의 감정 표현을 조절할 수 있는 감정 제어 기능을 갖추고 있으며, 속도 제어를 지원하여 사용자가 필요에 따라 음성 재생 속도를 조절할 수 있습니다. 이 시스템은 10만 시간의 대규모 데이터셋을 학습하여 탁월한 성능과 일반화 기능을 입증했습니다. F5-TTS의 주요 기능으로는 제로 샘플 음성 복제, 속도 제어, 감정 표현 제어, 장문 텍스트 합성, 다국어 지원 등이 있습니다. 기술 원리는 흐름 매칭, 확산 변환기(DiT), ConvNeXt V2 텍스트 표현 개선, Sway 샘플링 전략 및 종단 간 시스템 설계를 포함합니다. F5-TTS는 오디오북, 음성 지원, 언어 학습, 뉴스 방송, 게임 더빙 등 광범위한 적용 시나리오를 지원하며, 다양한 상업적, 비상업적 목적을 위해 강력한 음성 합성 기능을 제공합니다.

E2 TTS는 Embarrassingly Easy Text-to-Speech의 약자로, 단순화된 프로세스를 통해 인간 수준의 자연스러움과 화자 유사성을 구현한 고급 텍스트-음성(TTS) 시스템입니다. E2 TTS의 핵심은 완전한 비자기회귀적 특성에 있습니다. 즉, 단계별 생성이 필요 없이 전체 음성 시퀀스를 한 번에 생성할 수 있어 고품질 음성 출력을 유지하면서 생성 속도를 크게 높일 수 있습니다. 관련 논문 결과는 다음과 같습니다.E2 TTS: 엄청 쉬운 완전 비자기회귀 제로샷 TTS”는 SLT 2024에서 승인되었습니다. E2 TTS 프레임워크에서 텍스트 입력은 패딩 토큰이 포함된 문자 시퀀스로 변환됩니다. 그런 다음 스트림 매칭 기반 멜-스펙트로그램 생성기가 오디오 채우기 작업을 위해 학습됩니다. 이전의 많은 연구와 달리, 이 프레임워크는 추가 구성 요소(예: 지속 시간 모델, 자소-음소 변환)나 복잡한 기술(예: 단조 정렬 검색)을 필요로 하지 않습니다. E2 TTS는 단순성에도 불구하고 Voicebox 및 NaturalSpeech 3를 포함한 이전 연구와 동등하거나 그 이상의 최첨단 제로샷 TTS 기능을 구현합니다. E2 TTS의 단순성은 입력 표현의 유연성을 제공합니다.

该教程支持如下模型和功能:

2 个模型检查点:
- F5-TTS
- E2 TTS

3 个功能:
- 单人语音生成(Batched TTS): 根据上传的音频进行文本生成。
- 双人语音生成(Podcast Generation):根据双人音频模拟双人对话。
- 多种语音类型生成(Multiple Speech-Type Generation):可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。

실행 단계

컨테이너를 시작한 후 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

1. 일괄 TTS

TTS 기능을 선택하고, 필요에 따라 오디오와 텍스트 프롬프트를 업로드하고, 필요에 따라 고급 매개변수를 설정합니다.

  • 오디오: 한 사람이 말하는 내용을 선명하고 고품질로 담은 오디오 클립을 업로드하면, 모델이 해당 오디오 클립을 모방하여 생성합니다.
  • 텍스트 프롬프트 단어: 생성할 텍스트.

고급 매개변수

  • 참조 텍스트: 참조 오디오를 자동으로 변환하려면 비워 두세요. 텍스트를 입력하면 자동 변환 기능이 무시됩니다.
  • 침묵 제거: 이 모델은 특히 오디오가 길면 침묵이 발생하는 경향이 있습니다. 필요한 경우 수동으로 침묵을 제거할 수 있습니다. 이 기능은 실험적인 기능이기 때문에 이상한 결과가 발생할 수 있습니다. 이렇게 하면 빌드 시간도 늘어납니다.
  • 사용자 정의 분할 단어: 분할할 사용자 정의 단어를 쉼표로 구분하여 입력합니다. 기본 목록을 사용하려면 비워 두세요.
  • 속도: 생성된 음성의 속도를 제어합니다.

아래 그림과 같이

2. 팟캐스트 세대

선택하다 팟캐스트 세대 기능, 필요에 따라 다중 사용자 오디오 및 텍스트 프롬프트를 업로드합니다. 이 기능은 두 사람 간의 대화를 모방하는 모델을 사용하며, 두 사람의 이름과 오디오가 필요합니다.

  • 오디오: 두 개의 선명하고 고품질의 음성 오디오를 별도로 업로드하면, 모델이 오디오를 모방하여 생성합니다.
  • 참조 텍스트: 참조 오디오를 자동으로 변환하려면 기본값을 비워둡니다. 텍스트를 입력하면 자동 변환 기능이 무시됩니다.
  • 모델 선택: 기본값은 F5-TTS입니다.

아래 그림과 같이

3. 다양한 음성 유형 생성

아래에 필요에 따라 다중 음성 유형 생성 기능을 선택하고 다양한 감정의 오디오와 텍스트 프롬프트를 업로드하세요. 이 기능은 모델을 사용하여 감정을 시뮬레이션하고 다양한 감정에 따라 오디오를 생성합니다.

  • 오디오: 다양한 감정을 담은 선명하고 고품질의 오디오 클립을 여러 개 업로드하면, 모델이 해당 오디오를 모방하여 생성합니다.
  • 참조 텍스트: 참조 오디오를 자동으로 변환하려면 기본값을 비워둡니다. 텍스트를 입력하면 자동 변환 기능이 무시됩니다.
  • 모델 선택: 기본값은 F5-TTS입니다.

예를 들어, 일반, 놀람, 슬픔, 화남, 속삭임, 소리침 등 5개의 오디오 클립을 업로드하여 텍스트를 생성합니다.

(일반) 안녕하세요, 샌드위치를 주문하고 싶습니다. (놀라며) 빵이 다 떨어졌다는 게 무슨 말이에요? (슬픔) 샌드위치가 정말 먹고 싶었는데... (화남) 알잖아, 너랑 네 작은 가게는 진짜 엿같아! (속삭임) 이제 집에 돌아가서 울겠습니다. (소리치며) 왜 나야?!

다음과 같이 다양한 감정을 담은 연설을 생성할 수 있습니다.

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓