HyperAI

Ebook2Audiobook E-Book Zu Hörbuch

Ebook2Audiobook E-Book zu Hörbuch

1. Einführung in das Tutorial

Ebook2Audiobook ist ein im Jahr 2024 als Open Source veröffentlichtes Tool zum Konvertieren elektronischer Bücher (E-Books) in Hörbücher (Audiobooks). Das Projekt verwendet fortschrittliche Text-to-Speech-Technologie (TTS), um den Textinhalt von E-Books automatisch in Sprache umzuwandeln und so Hörbücher zu erstellen, die die Benutzer anhören können. Ebook2Audiobook unterstützt mehrere E-Book-Formate wie EPUB, PDF, MOBI usw. und kann die Kapitelstruktur und Metadaten beibehalten, sodass die generierten Hörbücher leichter zu navigieren und zu verstehen sind.

Projektfunktionen:

  • 📖 Konvertieren Sie eBooks mit Calibre in das Textformat.
  • 📚Teilen Sie eBooks in Kapitel auf, um Audio zu organisieren.
  • 🎙️Hochwertige Text-to-Speech-Funktion mit Coqui XTTSv2 und Fairseq.
  • 🗣️Optionales Stimmenklonen, verwenden Sie Ihre eigenen Sprachdateien.
  • 🌍Unterstützt 1107 Sprachen (standardmäßig Englisch)

Neue v2.0 Web-GUI-Schnittstelleneffekte

demo_web_gui

2. Bedienungsschritte

1. Starten Sie den Container

Klicken Sie dann auf die API-Adresse, um die Weboberfläche aufzurufen

2. Prozessdemonstration

Bitte beachten Sie:

  • Dieses Projekt hat einen „Modellladevorgang“, der etwa 3-4 Minuten dauert;
  • Wenn nach der Generierung des Fortschrittsbalkens das Online-Audio nicht angezeigt werden kann, aktualisieren Sie bitte die Webseite oder laden Sie es zur Anzeige auf Ihren lokalen Computer herunter.
  • Bei Verwendung einer TXT-Datei wird nur die erste Zeile gelesen.
  • Bitte beachten Sie, dass die Sprache des E-Books mit der ausgewählten Sprache übereinstimmen muss, da sonst eine „nicht-menschliche Sprache“ generiert wird;
  • In diesem Projekt speichert Fine Tuned Models nur das Standardmodell im Cache.

Erforderlich:

  • E-Book-Dokument
  • Sprache auswählen

Abbildung 1 Hauptprozess

Abbildung 2 Parameterparameter generieren

Parameter generieren

  • Temperatur: 0.65
    • Höhere Werte erzeugen eine kreativere und unvorhersehbarere Ausgabe, niedrigere Werte machen die Ausgabe monotoner.
  • Längenstrafe: Längere Sequenzen bestrafen
    • Höhere Werte erzeugen eine kürzere Ausgabe (nicht für benutzerdefinierte Modelle geeignet).
  • Wiederholungsstrafe: Wiederholte Phrasen bestrafen
    • Höhere Werte reduzieren Wiederholungen.
  • Top-k-Stichprobenverfahren: Niedrigere Werte beschränken die Ausgabe auf wahrscheinlichere Wörter und beschleunigen so die Audiogenerierung.
  • Top-p-Stichproben: Kontrollieren Sie die kumulative Wahrscheinlichkeit der Wortauswahl
    • Niedrigere Werte machen die Ausgabe vorhersehbarer und generieren Audio schneller.
  • Erzählergeschwindigkeit: Passen Sie die Sprechgeschwindigkeit des Erzählers an.
  • Textaufteilung: Teilen Sie langen Text in Sätze auf, um Audioblöcke zu generieren.
    • Gut für sehr lange Eingaben.
  • Textaufteilung aktivieren: Textaufteilung aktivieren.

Abbildung 3 Optionale Sprachen

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓