HyperAI초신경

OpenAudio-s1-mini: 효율적인 텍스트-음성 생성 도구

1. 튜토리얼 소개

짓다

OpenAudio-S1-mini는 Fish Audio 팀이 2025년 5월 26일에 공개한 오픈 소스 텍스트-음성 변환(TTS) 모델입니다. 자연어 처리 작업에서 우수한 성능을 보이는 신경망 구조입니다. 동시에 멀티태스크 학습 방식과 고급 신경망 보코더를 사용하여 고품질 음성 합성을 구현합니다. 이 프로젝트는 중국어를 포함한 다양한 주류 언어를 지원하여 사용자가 문화 간 소통에서 자유롭게 자신을 표현할 수 있도록 합니다. 단 15초 분량의 오디오 샘플만으로도 음성 복제를 빠르게 수행하여 대상 음성과 매우 유사한 음성을 생성할 수 있습니다.

이 튜토리얼에서는 단일 RTX 4090 카드에 대한 리소스를 사용합니다.

2. 프로젝트 예시

텍스트 음성 변환 

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 접속하시면 모델을 이용하실 수 있습니다.

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 1~2분 정도 기다리신 후 페이지를 새로고침해 주세요.  Safari 브라우저를 사용하는 경우 오디오가 직접 재생되지 않을 수 있으며, 재생하기 전에 다운로드해야 합니다.

사용 방법

2.1 텍스트를 오디오로

매개변수 설명:

  • 고급 구성:
    • 반복 프롬프트 길이: 반복 프롬프트 길이입니다. 0은 꺼짐을 의미합니다. 0이 아닌 값은 반복적으로 음성을 생성할 때 사용되는 프롬프트 텍스트의 길이를 제어합니다.
    • 배치당 최대 토큰 수: 배치당 최대 토큰 수입니다. 0은 무제한을 의미합니다. 0이 아닌 값은 배치당 처리되는 최대 토큰 수를 제한합니다.
    • 상단 – P: 생성된 텍스트의 다양성과 확실성을 제어하는 커널 샘플링 확률입니다.
    • 반복 페널티: 생성된 텍스트에서 반복되는 콘텐츠의 빈도를 제어하는 데 사용되는 반복 페널티 계수입니다. 값이 클수록 반복이 더 많이 방지됩니다.
    • 온도: 생성된 텍스트의 무작위성을 조정하는 온도 계수입니다. 값이 클수록 무작위성이 높아집니다.
    • 시드: 재현 가능한 결과를 보장하기 위해 고정된 난수를 생성하는 데 사용되는 난수 시드입니다.
  • 참조 오디오:
    • 메모리 캐시 사용: 메모리 캐시를 사용할지 여부를 선택합니다.
    • 참조 오디오: 사운드 콘텐츠의 참조로 사용할 오디오 파일(wav 파일)을 업로드하세요.
    • 참조 텍스트: 업로드된 오디오의 텍스트 내용을 입력하세요.

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.

@misc{fish-speech-v1.4,
      title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
      author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
      year={2024},
      eprint={2411.01156},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2411.01156},
}