تحويل الكتاب الإلكتروني إلى كتاب صوتي

1. مقدمة البرنامج التعليمي
Ebook2Audiobook هي أداة مفتوحة المصدر في عام 2024، مصممة لتحويل الكتب الإلكترونية (eBooks) إلى كتب صوتية (audiobooks). يستخدم المشروع تكنولوجيا متقدمة لتحويل النص إلى كلام (TTS) لتحويل محتوى النص في الكتب الإلكترونية إلى كلام تلقائيًا، مما يؤدي إلى إنشاء كتب صوتية يمكن للمستخدمين الاستماع إليها. يدعم Ebook2Audiobook تنسيقات متعددة للكتب الإلكترونية، مثل EPUB وPDF وMOBI وما إلى ذلك، ويمكنه الحفاظ على بنية الفصل والبيانات الوصفية، مما يجعل الكتب الصوتية المولدة أسهل في التنقل والفهم.
مميزات المشروع:
- 📖 تحويل الكتب الإلكترونية إلى صيغة نصية باستخدام Calibre.
- 📚تقسيم الكتب الإلكترونية إلى فصول لتنظيم الصوت.
- 🎙️تحويل النص إلى كلام عالي الجودة باستخدام Coqui XTTSv2 وFairseq.
- 🗣️استنساخ الصوت اختياري، استخدم ملفات الصوت الخاصة بك.
- 🌍يدعم 1107 لغة (الإنجليزية افتراضيًا)
تأثيرات واجهة المستخدم الرسومية الجديدة للويب v2.0

2. خطوات التشغيل
1. ابدأ تشغيل الحاوية
ثم انقر فوق عنوان API للدخول إلى واجهة الويب

2. عرض العملية
يرجى الملاحظة:
- يحتوي هذا المشروع على "عملية تحميل النموذج"، والتي تستغرق حوالي 3-4 دقائق؛
- بعد إنشاء شريط التقدم، إذا لم تتمكن من عرض الصوت عبر الإنترنت، فيرجى تحديث صفحة الويب أو تنزيله على الكمبيوتر المحلي لديك لعرضه؛
- عند استخدام ملف txt، سيتم قراءة السطر الأول فقط؛
- يرجى ملاحظة أن لغة الكتاب الإلكتروني يجب أن تكون متوافقة مع اللغة المحددة، وإلا سيتم إنشاء "لغة غير بشرية"؛
- في هذا المشروع، تقوم Fine Tuned Models بتخزين النموذج القياسي فقط.
مطلوب:
- وثيقة الكتاب الإلكتروني
- اختر اللغة

الشكل 1 العملية الرئيسية

الشكل 2 توليد معلمات المعلمات
إنشاء المعلمات
- درجة حرارة: 0.65
- القيم الأعلى تنتج مخرجات أكثر إبداعًا وغير متوقعة، والقيم المنخفضة تجعل المخرجات أكثر رتابة.
- عقوبة الطول:معاقبة التسلسلات الأطول
- القيم الأعلى تنتج مخرجات أقصر (غير مناسبة للنماذج المخصصة).
- عقوبة التكرار:معاقبة العبارات المتكررة
- القيم الأعلى تقلل التكرار.
- أخذ العينات من أعلى إلى أسفل:تؤدي القيم المنخفضة إلى تقييد الإخراج بالكلمات الأكثر احتمالية، مما يؤدي إلى تسريع عملية إنشاء الصوت.
- أخذ العينات من أعلى p:التحكم في الاحتمالية التراكمية لاختيار الكلمات
- تجعل القيم المنخفضة الإخراج أكثر قابلية للتنبؤ وتوليد الصوت بشكل أسرع.
- سرعة الراوي:ضبط سرعة حديث الراوي.
- تقسيم النص:تقسيم النص الطويل إلى جمل لتوليد الصوت في أجزاء.
- جيد للمدخلات الطويلة جدًا.
- تمكين تقسيم النص:تمكين تقسيم النص.

الشكل 3 اللغات القابلة للاختيار