Ebook2Audiobook 전자책을 오디오북으로
Ebook2Audiobook 전자책을 오디오북으로

1. 튜토리얼 소개
Ebook2Audiobook은 2024년에 오픈 소스로 공개될 예정인 도구로, 전자책(eBook)을 오디오북(오디오북)으로 변환하도록 설계되었습니다. 이 프로젝트는 고급 텍스트 음성 변환(TTS) 기술을 사용하여 전자책의 텍스트 내용을 자동으로 음성으로 변환하고, 사용자가 들을 수 있는 오디오북을 생성합니다. Ebook2Audiobook은 EPUB, PDF, MOBI 등 다양한 전자책 형식을 지원하고, 각 장의 구조와 메타데이터를 보존할 수 있어 생성된 오디오북을 탐색하고 이해하기 쉽게 만들어줍니다.
프로젝트 특징:
- 📖 Calibre를 사용하여 전자책을 텍스트 형식으로 변환합니다.
- 📚 오디오를 정리하기 위해 전자책을 장으로 나눕니다.
- 🎙️Coqui XTTSv2와 Fairseq를 사용한 고품질 텍스트 음성 변환.
- 🗣️선택적 음성 복제, 본인의 음성 파일을 사용하세요.
- 🌍1107개 언어 지원 (기본은 영어)
새로운 v2.0 웹 GUI 인터페이스 효과

2. 작업 단계
1. 컨테이너를 시작하세요
그런 다음 API 주소를 클릭하여 웹 인터페이스로 들어갑니다.

2. 프로세스 데모
참고사항:
- 이 프로젝트에는 약 3~4분 정도 걸리는 "모델 로딩 프로세스"가 있습니다.
- 진행률 표시줄이 생성된 후 온라인 오디오가 표시되지 않을 경우 웹페이지를 새로 고치거나 로컬 컴퓨터에 다운로드하여 보십시오.
- txt 파일을 사용하는 경우 첫 번째 줄만 읽습니다.
- 전자책의 언어는 선택한 언어와 일치해야 합니다. 그렇지 않으면 "인간이 인식하지 못하는 언어"가 생성됩니다.
- 이 프로젝트에서 Fine Tuned Models는 std 모델만 캐시합니다.
필수의:
- 전자책 문서
- 언어 선택

그림 1 주요 프로세스

그림 2 매개변수 생성
매개변수 생성
- 온도: 0.65
- 값이 높을수록 더욱 창의적이고 예측 불가능한 결과물이 생성되고, 값이 낮을수록 결과물은 더욱 단조로워집니다.
- 길이 페널티: 긴 시퀀스에 페널티를 부여합니다.
- 값이 높을수록 출력이 짧아집니다(사용자 정의 모델에는 적합하지 않음).
- 반복 페널티: 반복되는 문구에 대한 페널티 부여
- 값이 높을수록 반복이 줄어듭니다.
- Top-k 샘플링: 값이 낮을수록 출력이 더 가능성 있는 단어로 제한되어 오디오 생성 속도가 빨라집니다.
- Top-p 샘플링: 단어 선택의 누적 확률을 제어합니다.
- 값이 낮을수록 출력이 더 예측 가능하고 오디오가 더 빨리 생성됩니다.
- 내레이터 속도: 내레이터의 말하는 속도를 조절합니다.
- 텍스트 분할: 긴 텍스트를 문장으로 나누어 오디오를 덩어리로 생성합니다.
- 매우 긴 입력에 적합합니다.
- 텍스트 분할 활성화: 텍스트 분할을 활성화합니다.

그림 3 선택 가능한 언어
교류 및 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓