Fish Speech V1.4 음성 복제 - 텍스트 음성 변환 도구 데모

튜토리얼 소개

Fish Speech는 Fish Audio가 2024년에 개발한 오픈 소스 텍스트-음성(TTS) 모델로, 자연스럽게 들리는 고품질의 음성을 생성할 수 있습니다. 이 모델은 약 15만 시간 분량의 데이터로 훈련되었으며, 중국어, 일본어, 영어에 능통합니다. 언어 처리 능력은 인간 수준에 가깝고, 음성 표현은 풍부하고 다양합니다. 수십억 개의 매개변수를 가진 모델인 Fish Speech는 효율적이고 가볍게 설계되었습니다. 개인 기기에서 쉽게 실행하고 미세 조정할 수 있어 사용자의 개인 음성 비서가 될 수 있습니다.
Fish Speech의 주요 특징으로는 텍스트 음성 변환, 다국어 지원, 음성 사용자 정의, 고품질 사운드 라이브러리, 무료 오픈 소스 등이 있습니다. 콘텐츠 제작, 교육, 고객 서비스, 보조 도구 등 다양한 시나리오에 적합합니다. 또한 이 모델은 API 통합 및 모델 미세 조정을 지원하여 사용자가 필요에 따라 사용자 정의하고 최적화할 수 있도록 합니다.
최신 버전 1.4에서는 다국어 지원과 성능 면에서 상당한 혁신이 이루어졌으며, 학습 데이터 양도 두 배로 늘어나 70만 시간으로 늘어났습니다.영어, 중국어, 독일어, 일본어, 프랑스어, 스페인어, 한국어, 아랍어 등 8개 주요 언어를 지원합니다. 새로운 버전에서는 즉각적인 음성 복제 기능이 도입되어 사용자가 특정 음성 스타일을 빠르게 복제할 수 있으며, 유연한 배포 옵션과 API 서비스를 제공합니다.
이 튜토리얼에서는 모델과 환경을 배포했습니다. 튜토리얼의 지침에 따라 음성 복제나 텍스트 음성 변환 작업을 직접 수행할 수 있습니다.
실행 방법
1. 首先克隆容器, 按步骤启动容器
2. 复制生成的 API 地址到浏览器即可使用
3. 该教程主要包含 2 个功能:文本转语音和声音克隆
3.1 文本转语音:在「Input Text」输入生成的文本,点击「Generate」即可生成结果

* Advanced Configs
相关的采样参数具体如下:
- 반복적 프롬프트 길이: 모델이 텍스트를 생성할 때 고려할 이전 텍스트의 길이를 말합니다. 0이 아닌 값으로 설정하면 모델은 각 생성 단계에서 지정된 수의 최근 단어 또는 토큰을 컨텍스트로 간주합니다. 0으로 설정하면 이 기능이 꺼지고 모델은 사용 가능한 모든 컨텍스트를 고려하거나 모델 창 크기와 같은 다른 매개변수를 기반으로 컨텍스트 길이를 결정합니다.
- 배치당 최대 토큰은 모델이 각 배치에서 생성할 수 있는 최대 토큰 수를 제한합니다. 태그는 일반적으로 단어, 구두점 등을 나타냅니다. 0으로 설정하면 제한이 없으며 모델은 필요한 길이만큼의 텍스트를 생성하거나 모델의 내부 최대 길이 제한에 도달할 때까지 텍스트를 생성합니다.
- Top-P(커널 샘플링 또는 확률 샘플링이라고도 함)는 모델이 각각의 새 단어를 생성할 때 누적 확률이 P보다 큰 가장 작은 단어 집합만 고려하는 텍스트 생성 전략입니다. 즉, 이 모델은 이 집합에서 다음 단어를 무작위로 선택하여 생성되는 텍스트의 다양성을 높이는 동시에 낮은 확률로 관련성 없는 단어가 생성되는 것을 방지합니다.
- 반복 페널티는 생성된 텍스트에서 반복되는 콘텐츠를 줄이는 데 사용됩니다. 모델이 이미 생성된 단어나 구문을 반복하는 경향이 있는 경우, 이 매개변수를 적용하면 이러한 단어를 선택할 확률을 줄일 수 있습니다. 이는 이미 생성된 단어의 확률 점수를 조정(일반적으로 낮춤)하여 모델이 다른 단어를 선택하도록 하는 방식으로 수행됩니다.
- 온도는 생성된 텍스트의 무작위성을 제어합니다.

3.2 声音克隆:选择「Reference Audio」并点击「Enable Reference Audio」,
上传「Reference Audio(参考音频)」,以及「Reference Text(参考文本)」,在「Input Text」输入生成的文本,点击「Generate」即可生成声音克隆结果

4. 其他参数说明
* Text Normalization
是否开启文本标准化(例如日期、固话、金钱等等)

* Batch Inference
设置生成语音数量

교류 및 토론
🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【教程交流】入群探讨各类技术问题、分享应用效果↓
