SoulX-Podcast: توليد كلام نصي طويل بجودة البودكاست للعديد من اللهجات.
1. مقدمة البرنامج التعليمي

SoulX-Podcast هو نموذج مصمم لتوليد الكلام الحواري متعدد الأدوار والمتحدثين على غرار البودكاست، مع الأداء الجيد أيضًا في مهام تحويل النص إلى كلام التقليدية أحادية الصوت.
لتحقيق متطلبات أعلى من حيث سلاسة الحوارات متعددة الأدوار، يدمج برنامج SoulX-Podcast مجموعة من أدوات التحكم في اللغات الثانوية، ويدعم اللغة الصينية الماندرينية والإنجليزية والعديد من اللهجات الصينية، بما في ذلك لهجة سيتشوان ولهجة خنان والكانتونية، مما يجعل إنتاج الكلام بأسلوب البودكاست أكثر تخصيصًا. يمكن الاطلاع على التفاصيل التقنية ذات الصلة في الورقة البحثية بعنوان "...".بودكاست سول إكس: بودكاست طويل متعدد المتحدثين واللهجات بتقنية توليد الكلام".
يستخدم هذا البرنامج التعليمي بطاقة رسومات RTX 5090 واحدة كمورد افتراضي.
2. أمثلة المشاريع
تُظهر لقطات الشاشة التالية الواجهة الفعلية لبرنامج SoulX-Podcast WebUI الذي يعمل على منصة OpenBayes، مما يساعدك على فهم العملية بأكملها بسرعة.
مثال توضيحي للهجة

3. خطوات التشغيل
1. بعد بدء تشغيل الحاوية، انقر فوق عنوان API للدخول إلى واجهة الويب

2. خطوات الاستخدام
بمجرد دخولك إلى واجهة المستخدم على الويب، يمكنك:
- قم بتحميل ملف صوتي مرجعي لمتحدثين اثنين
- أدخل النص المرجعي (تلميحات اللهجة اختيارية)
- أدخل نص حوار البودكاست الكامل
- انقر على زر "إنشاء"
- يمكنك عرض وتشغيل ملف الصوت النهائي للبودكاست.
فيما يلي لقطات شاشة توضح مثالاً على العملية:

3. خطوات استخدام نص التوجيه باللهجة المحلية
من خلال تزويد النموذج بنصوص أمثلة إضافية باللهجات المحلية، يمكن تحسين طبيعية اللهجة في الكلام الناتج بشكل كبير.
تتكون العملية من 4 خطوات بسيطة وهي سهلة الاستخدام.
الخطوة 1: أكمل إدخال التعليمات الأساسية
قم بتحميل أو ملء المعلومات الخاصة بالقسمين S1 و S2 على التوالي:
- الصوت المرجعي (صوت التوجيه)
- تُستخدم خطوة نص التوجيه لتحديد جرس المتحدث ونبرته وخصائص دوره، قبل تمكين تحسين اللهجة.

الخطوة الثانية: اختيار اللهجة
قم بتوسيع محدد نص مطالبة اللهجة واختر نوع اللهجة التي ترغب في تحسينها.
بعد الاختيار، سيقوم النظام تلقائيًا بتحميل جمل نموذجية نموذجية لتلك اللهجة.

الخطوة 3: اختر مثالاً على اللهجة
اختر جملة مثال واحدة لكل من S1 و S2 على التوالي.
بعد النقر على أحد الأمثلة، سيتم ملء مربع الإدخال تلقائيًا بنص اللهجة المناسب. ستعمل هذه الأمثلة كدليل على أسلوب اللهجة، مما يجعل الكلام الناتج أكثر أصالة وطبيعية.

الخطوة الرابعة: أدخل النص المُركّب وقم بإنشائه
4. المناقشة
🖌️ إذا رأيت مشروعًا عالي الجودة، فيرجى ترك رسالة في الخلفية للتوصية به! بالإضافة إلى ذلك، قمنا أيضًا بتأسيس مجموعة لتبادل الدروس التعليمية. مرحبًا بالأصدقاء لمسح رمز الاستجابة السريعة وإضافة [برنامج تعليمي SD] للانضمام إلى المجموعة لمناقشة المشكلات الفنية المختلفة ومشاركة نتائج التطبيق↓

دعم المشاريع
@misc{SoulXPodcast, title = {SoulX-Podcast: Towards Realistic Long-form Podcasts with Dialectal and Paralinguistic Diversity}, author = {Hanke Xie and Haopeng Lin and Wenxiao Cao and Dake Guo and Wenjie Tian and Jun Wu and Hanlin Wen and Ruixuan Shang and Hongmei Liu and Zhiqi Jiang and Yuepeng Jiang and Wenxi Chen and Ruiqi Yan and Jiale Qian and Yichao Yan and Shunshun Yin and Ming Tao and Xie Chen and Lei Xie and Xinsheng Wang}, year = {2025}, archivePrefix={arXiv}, url = {https://arxiv.org/abs/2510.23541}}
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.