HyperAI

دروس تعليمية عبر الإنترنت | تقييم حقيقي لثلاثة نماذج لاستنساخ الصوت، برنامج GPT-SoVITS يستوعب بدقة خصائص "شيجي نيانغنيانغ"

特色图像

حقق شباك تذاكر فيلم مهرجان الربيع "نزهة 2" ارتفاعا كبيرا وتجاوز الآن 12 مليارا، ليصبح أول فيلم صيني يصل إلى علامة 10 مليارات ويدخل بنجاح قائمة العشرة الأوائل في تاريخ شباك التذاكر العالمي. في الفيلم، أعطى ممثلو الأصوات للشخصيات حيوية واضحة بأصواتهم النابضة بالحياة. من صوت نيزها الدخاني إلى لهجة سيتشوان لتايي زينرين، إلى حيوية شيجي نيانغنيانغ، أثار هذا نقاشًا واسع النطاق بين الجمهور وأبرز فن الدبلجة خلف الكواليس.

عندما يتعلق الأمر بسحر فن الدبلجة، فإن جلد باي جينغ جينغ لمي يوي في "شرف الملوك" هو مثال مثالي. قام الموقع الرسمي بدعوة وانغ هويجون، الممثل الصوتي الأصلي لشخصية باي جينغ جينغ في فيلم "أوديسة صينية"، بشكل خاص لأداء صوتها مرة أخرى. "علينا أن نؤمن أن التخلي هو أيضًا نوع من إرادة الله." وعندما بدت الخطوط المألوفة، استيقظت على الفور مشاعر الاستياء لدى كثير من الناس، وتبرع اللاعبون "بسخاء" لهذه المشاعر.

تتطور تقنية استنساخ الصوت بسرعة كبيرة في يومنا هذا. بالاعتماد على نماذج استنساخ الصوت المتقدمة، يمكن للأشخاص العاديين أيضًا تجاوز الزمان والمكان، واستنساخ الصوت الفريد لشخصياتهم المفضلة بنقرة واحدة، وإشباع "إدمانهم للدبلجة" بسهولة! في الوقت الحالي،تبرز ثلاثة نماذج مفتوحة المصدر رئيسية، وهي GPT-SoVITS، وFish Speech v1.4، وF5-E2 TTS.بفضل مزاياها الفريدة، فإنها تلعب دورًا رئيسيًا في سيناريوهات التطبيق المختلفة. سواء كان الأمر يتعلق بإنشاء الأفلام والتلفزيون، أو إنتاج المحتوى الصوتي، أو الدبلجة الممتعة اليومية، فمن الممكن العثور عليهم.

أصبح قسم "البرنامج التعليمي" في الموقع الرسمي لـ HyperAI متاحًا الآن على الإنترنت:

* عرض توضيحي عبر الإنترنت لتوليف الصوت GPT-SoVITS:

https://hyper.ai/cn/tutorials/29812

* عرض توضيحي لأداة Fish Speech v1.4 Voice Cloning-Text to Speech:

https://hyper.ai/cn/tutorials/34680

* F5-E2 TTS يستنسخ أي صوت في 3 ثوانٍ فقط:

https://hyper.ai/cn/tutorials/35468

اليوم، سأقدم لك مقدمة مفصلة عن هذه النماذج الثلاثة مفتوحة المصدر لاستنساخ الصوت، واستخدام نفس الصوت الأصلي والموجه لمساعدتك في تقييم تأثيرات الاستخدام الفعلية!

تركيب الصوت GPT-SoVITS

* وقت الإصدار:2022

* الجهة المصدرة:محطة ب، رئيس قسم هواير بوكو

* النشر بنقرة واحدة:

https://hyper.ai/cn/tutorials/29812

يستخدم هذا النموذج تقنية ترميز الكلام SoVITS+Transformer وأحدث ضجة كبيرة في دائرة تركيب الكلام بالذكاء الاصطناعي بمجرد إطلاقه. إن تأثير تركيب الكلام عالي الدقة لا مثيل له. حتى مع 5 ثوانٍ فقط من عينات الصوت، فإنه يمكنه تحقيق تحويل النص إلى كلام (TTS) بدون أي عينة.

إذا أخذنا صوت شيجي نيانجنيانج في فيلم Nezha كمثال، وباستخدام GPT-SoVITS، نحتاج فقط إلى جمع عينة صوتية من السطور الكلاسيكية لشيجي نيانجنيانج في الفيلم كعينة لإعادة إنتاج صوتها الجميل والحيوي والقوي بدقة.

استنساخ صوت Fish Speech v1.4

* وقت الإصدار:2024

* الجهة المصدرة:فريق فيش أوديو

* النشر بنقرة واحدة:

https://hyper.ai/cn/tutorials/34680

تم تدريب النموذج باستخدام ما يقرب من 150 ألف ساعة من البيانات وهو يجيد اللغات الصينية واليابانية والإنجليزية. إن قدراته على معالجة اللغة تقترب من المستويات البشرية، وتعبيراته الصوتية غنية ومتنوعة. يمكن للمستخدمين تعديل جرس الصوت ودرجة الصوت وسرعة التحدث بحرية لإنشاء صوتهم الفريد بسهولة لتلبية احتياجات الجميع الشخصية لأصوات الشخصيات في السيناريوهات الإبداعية المختلفة.

يقوم برنامج F5-E2 TTS باستنساخ أي صوت في 3 ثوانٍ فقط

* وقت الإصدار:2024

* الجهة المصدرة:جامعة شنغهاي جياو تونغ، وجامعة كامبريدج، وشركة جيلي لأبحاث السيارات (نينغبو) المحدودة.

* النشر بنقرة واحدة:

https://hyper.ai/cn/tutorials/35468

يعتمد F5 TTS على طريقة توليد غير انحدارية تعتمد على مطابقة التدفق، جنبًا إلى جنب مع تقنية Diffusion Transformer (DiT)، والتي يمكنها توليد كلام طبيعي وسلس ومطابق للنص الأصلي بسرعة من خلال التعلم بدون لقطة بدون إشراف إضافي. يكمن جوهر E2 TTS في ميزته غير الانحدارية تمامًا. يمكنه إنشاء تسلسل الكلام بالكامل في وقت واحد دون الحاجة إلى إنشاء خطوة بخطوة، وبالتالي تحسين سرعة التوليد بشكل كبير والحفاظ على إخراج الكلام عالي الجودة، وتحقيق استنساخ مختلط متعدد النغمات في 3 ثوانٍ.

يدعم هذا النموذج 3 وظائف:

* توليد صوت شخص واحد (تحويل النص إلى كلام مجمع):  إنشاء نص بناءً على الصوت الذي تم تحميله.

* إنشاء البودكاست:محاكاة محادثة بين شخصين استنادًا إلى الصوت بين شخصين.

* توليد أنواع متعددة من الكلام:من الممكن إنشاء ملفات صوتية ذات مشاعر مختلفة استنادًا إلى ملفات صوتية لنفس المتحدث ذات مشاعر مختلفة.

ما سبق هو مراجعة لنموذج استنساخ الصوت الذي أعددناه لك. إذا كنت مهتمًا، تعال واختبره بنفسك!