HyperAI초신경

홈 뉴스 연구 논문 튜토리얼 데이터셋 백과사전 SOTA LLM 모델 GPU 랭킹 컨퍼런스

한국어

HyperAI초신경

Ebook2Audiobook 전자책을 오디오북으로

온라인에서 이 튜토리얼 실행하기

1. 튜토리얼 소개

Ebook2Audiobook은 2024년에 오픈 소스로 공개될 예정인 도구로, 전자책(eBook)을 오디오북(오디오북)으로 변환하도록 설계되었습니다. 이 프로젝트는 고급 텍스트 음성 변환(TTS) 기술을 사용하여 전자책의 텍스트 내용을 자동으로 음성으로 변환하고, 사용자가 들을 수 있는 오디오북을 생성합니다. Ebook2Audiobook은 EPUB, PDF, MOBI 등 다양한 전자책 형식을 지원하고, 각 장의 구조와 메타데이터를 보존할 수 있어 생성된 오디오북을 탐색하고 이해하기 쉽게 만들어줍니다.

프로젝트 특징:

📖 Calibre를 사용하여 전자책을 텍스트 형식으로 변환합니다.
📚 오디오를 정리하기 위해 전자책을 장으로 나눕니다.
🎙️Coqui XTTSv2와 Fairseq를 사용한 고품질 텍스트 음성 변환.
🗣️선택적 음성 복제, 본인의 음성 파일을 사용하세요.
🌍1107개 언어 지원 (기본은 영어)

새로운 v2.0 웹 GUI 인터페이스 효과

데모_웹_gui

2. 작업 단계

1. 컨테이너를 시작하세요

그런 다음 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

2. 프로세스 데모

참고사항:

이 프로젝트에는 약 3~4분 정도 걸리는 "모델 로딩 프로세스"가 있습니다.
진행률 표시줄이 생성된 후 온라인 오디오가 표시되지 않을 경우 웹페이지를 새로 고치거나 로컬 컴퓨터에 다운로드하여 보십시오.
txt 파일을 사용하는 경우 첫 번째 줄만 읽습니다.
전자책의 언어는 선택한 언어와 일치해야 합니다. 그렇지 않으면 "인간이 인식하지 못하는 언어"가 생성됩니다.
이 프로젝트에서 Fine Tuned Models는 std 모델만 캐시합니다.

필수의:

전자책 문서
언어 선택

그림 1 주요 프로세스

그림 2 매개변수 생성

매개변수 생성

온도: 0.65
- 값이 높을수록 더욱 창의적이고 예측 불가능한 결과물이 생성되고, 값이 낮을수록 결과물은 더욱 단조로워집니다.
길이 페널티: 긴 시퀀스에 페널티를 부여합니다.
- 값이 높을수록 출력이 짧아집니다(사용자 정의 모델에는 적합하지 않음).
반복 페널티: 반복되는 문구에 대한 페널티 부여
- 값이 높을수록 반복이 줄어듭니다.
Top-k 샘플링: 값이 낮을수록 출력이 더 가능성 있는 단어로 제한되어 오디오 생성 속도가 빨라집니다.
Top-p 샘플링: 단어 선택의 누적 확률을 제어합니다.
- 값이 낮을수록 출력이 더 예측 가능하고 오디오가 더 빨리 생성됩니다.
내레이터 속도: 내레이터의 말하는 속도를 조절합니다.
텍스트 분할: 긴 텍스트를 문장으로 나누어 오디오를 덩어리로 생성합니다.
- 매우 긴 입력에 적합합니다.
텍스트 분할 활성화: 텍스트 분할을 활성화합니다.

그림 3 선택 가능한 언어