يتضمن البرنامج التعليمي: نموذج استنساخ الصوت GPT-SoVITS، يمكن لـ 5 ثوانٍ من الكلام استنساخ صوت مشابه لـ 95%

"الصوت" هو "تكنولوجيا التعليم المبكر" للبشر للتواصل مع الذكاء الاصطناعي، وهو أيضًا أحد أقدم تقنيات الذكاء الاصطناعي التي خرجت من المختبر إلى آلاف الأسر. في البداية، ركزت الأبحاث المتعلقة بالكلام الذكي على التعرف على الكلام، أي جعل الآلات تفهم اللغة البشرية.

كان أقدم نظام التعرف على الكلام المعتمد على الكمبيوتر هو نظام Audrey، الذي طورته شركة AT&T Bell Labs، والذي كان قادرًا على التعرف على 10 أرقام إنجليزية. في عام 1988، قام كاي فو لي بتنفيذ أول نظام للتعرف على الكلام باستخدام المفردات الكبيرة وهو Sphinx استنادًا إلى نموذج ماركوف المخفي. في عام 1997، تم إطلاق Dragon NaturallySpeaking، أول نظام إملاء الكلام المستمر في العالم الموجه للمستهلك، رسميًا. في عام 2009، قامت شركة Microsoft بدمج قدرات الصوت في نظام التشغيل Windows 7.

في عام 2011، تم إصدار المنتج الرائد iPhone 4S. أدى ولادة Siri إلى نقل الصوت الذكي من مرحلة التعرف إلى مرحلة جديدة من "التفاعل".وفي العام نفسه، أعلنت شركة جوجل أنها ستبدأ في اختبار خدمة البحث من جوجل داخليًا وستطرح البحث الصوتي على موقع Google.com في الأيام المقبلة.

ويشكل الانتقال من السمع إلى الكلام أيضًا حجر الزاوية المهم لازدهار وتطور التفاعل بين الإنسان والحاسوب. في الوقت الحاضر، من المنازل الذكية إلى القيادة الذكية إلى الروبوتات، أصبح التفاعل الصوتي أكثر سلاسة مع التحديث المستمر للذكاء الاصطناعي، وتزدهر التطبيقات المختلفة. على الجانب الفني، قامت شركات الحوسبة السحابية الكبرى بإتاحة قدرات الذكاء الاصطناعي الصوتية الخاصة بها في شكل واجهات برمجة التطبيقات، مما يسمح للمطورين ببناء تطبيقات أخرى تعتمد عليها.

في السنوات الأخيرة، ومع استمرار شعبية النماذج الكبيرة، حظيت قدرات المصدر المفتوح مباشرة على مستوى النموذج بمزيد من الاهتمام. يمكن للمطورين تدريب النماذج وضبطها لتحسين تأثير النشر بين النماذج والتطبيقات التي يطورونها.

منذ وقت ليس ببعيد،قام مؤسس RVC (تحويل الصوت القائم على الاسترجاع) (حساب GitHub: RVC-Boss) بإصدار مشروع استنساخ الصوت GPT-SoVITS مفتوح المصدر.اكتسبت شعبية كبيرة فور إطلاقها. قام العديد من المدونين والمطورين بتخصيص خطوط مختلفة من المراكب الشراعية باستخدام أصوات الشخصيات الشهيرة في الأفلام والتلفزيون وشخصيات الأنمي. كما جذبت التأثيرات الدرامية وسهولة الاستخدام مجموعة من مستخدمي الإنترنت، مما أضاف الوقود إلى شعبيتها مرة أخرى. وفقًا للاختبارات التي أجراها المدونون الرئيسيون، من خلال توفير عينة صوتية مدتها 5 ثوانٍ فقط، يمكن للمرء الحصول على صوت مستنسخ يشبه 80%~95%.

حاليًا، تم إطلاق البرنامج التعليمي لنشر النموذج على الموقع الرسمي لـ HyperAI. انقر لبدء الاستنساخ:

https://hyper.ai/tutorials/29812

طلب المحرر من الشخصية الأصلية بايمون الظهور في دور الملكة في أسطورة تشن هوان.أصبحت بايمينج الإمبراطورة أولانارا في ثوانٍ.

البرنامج التعليمي لاستنساخ صوت الذكاء الاصطناعي الذي قدمه Jack-Cui ، وهو أحد أساتذة Up الشهيرين في محطة B ، هو كما يلي:

https://www.bilibili.com/video/BV1WC411W79t/?spm_id_from=333.788&vd_source=5e54209e1f8c68b7f1dc3df8aabf856c

البرنامج التعليمي خطوة بخطوة هو كما يلي. بمجرد أن يكون لديك 5 ثوانٍ من الكلام جاهزة، يمكنك البدء في تدريب نموذج استنساخ الصوت الخاص بك!

إعداد البيانات

حاليًا، يتضمن هذا البرنامج التعليمي العديد من نغمات الأحرف الكلاسيكية ليتمكن الجميع من تجربتها. إذا كنت تريد استنساخ نغمات أخرى، فأنت بحاجة إلى إعداد ملف صوتي للنغمة بصيغة MP3، ويفضل أن يكون صوتًا واحدًا (حوالي 30 ثانية). يمكن لملفات الصوت عالية الجودة تحسين واقعية الصوت المستنسخ.

1. انقر فوق "تشغيل هذا البرنامج التعليمي عبر الإنترنت" للانتقال إلى منصة OpenBayes.

2. انقر فوق "استنساخ" لنسخ النموذج. (هذه الخطوة لا يمكن إلا أن تتيح لك تجربة الصوت الذي تم تحميله بواسطة Jack-Cui، المشرف على محطة B)

3. إذا كنت تريد تخصيص الصوت المستنسخ، فستحتاج إلى إنشاء مجموعة بيانات جديدة. بعد الانتقال إلى "مجموعات البيانات" في شريط القائمة الأيسر، انقر فوق "إنشاء مجموعة بيانات جديدة".

4. بعد ملء "اسم مجموعة البيانات" و"وصف مجموعة البيانات" حسب الحاجة، انقر فوق "إنشاء مجموعة بيانات".

5. بعد اكتمال الإنشاء، انقر فوق "تحميل إصدار جديد" في الزاوية اليمنى العليا وقم بتحميل ملف الصوت الذي تريد استنساخه.

تشغيل تجريبي

1. بعد الانتهاء من إعداد البيانات، افتح "GPT-SoVITS Audio Synthesis Online Demo" في "Public Tutorial" في شريط القائمة الأيسر، ثم عد إلى صفحة البرنامج التعليمي، وانقر فوق "استنساخ" في الزاوية اليمنى العليا لاستنساخ البرنامج التعليمي في الحاوية الخاصة بك.

2. حاليًا، يتضمن العرض التوضيحي بيانات صوتية لـ Klee وConcubine Hua وZhen Huan وFat Ju. عدد البيانات المرتبطة ممتلئ حاليًا. يمكنك حذف بيانات الصوت غير الضرورية وإضافة مجموعة البيانات الخاصة بك.

3. بعد الإضافة، انقر فوق "مراجعة وتنفيذ".

4. بعد الانتقال إلى الصفحة، انقر فوق "متابعة". يوصى باستخدام RTX 4090.

لقد قام المحرر بتأمين فوائد جديدة للمستخدم للجميع! يمكن للمستخدمين الجدد التسجيل باستخدام رابط الدعوة أدناه للحصول على 4 ساعات من RTX 4090 + 5 ساعات من وقت الحوسبة المجاني لوحدة المعالجة المركزية.

رابط دعوة حصرية لـ HyperAI (انسخ وافتح في المتصفح للتسجيل):

https://openbayes.com/console/signup?r=Ada0322_QZy7

5. انتظر بعض الوقت حتى تتغير الحالة إلى "قيد التشغيل"، ثم انقر فوق "فتح مساحة العمل". يستغرق استنساخ الحاوية وبدء تشغيلها للمرة الأولى حوالي 3-5 دقائق. إذا كانت الحالة لا تزال "تخصيص الموارد" بعد مرور أكثر من 10 دقائق، فحاول إيقاف الحاوية وإعادة تشغيلها. إذا لم تنجح إعادة التشغيل في حل المشكلة، فيرجى الاتصال بخدمة عملاء المنصة على الموقع الرسمي.

6. بعد فتح مساحة العمل، انقر فوق "run.ipynb" على اليسار، وانقر فوق زر "تشغيل" في شريط القائمة، ثم انقر فوق "تشغيل جميع الخلايا".

7. ابحث عن "التشغيل على عنوان URL العام" وافتح الرابط.

8. في وحدة "عنوان مجموعة البيانات"، قم بملء عنوان مجموعة البيانات التي تريد استنساخ الصوت فيها هذه المرة. بعد تحديد نوع البيانات الصوتية، انقر فوق "بدء التدريب". عندما تظهر نتيجة الإخراج "يبدأ النموذج في التنبؤ، يرجى الانتظار"، ارجع إلى "run.ipynb" وسترى "اكتمل تدريب GPT".

9. افتح "عنوان API" على اليمين. يرجى ملاحظة أنه يجب على المستخدمين إكمال مصادقة الاسم الحقيقي قبل استخدام وظيفة الوصول إلى عنوان API.

عرض التأثير

1. حدد النموذج المدرب في "قائمة نماذج GPT" و"قائمة نماذج SoVITS"، ثم أدخل النص في "نص الاستدلال"، وانقر فوق "بدء الاستدلال"، وانتظر لحظة، ويمكنك الاستمتاع!

في الوقت الحاضر، أطلق الموقع الرسمي لـ HyperAI مئات من البرامج التعليمية المختارة المتعلقة بالتعلم الآلي، والتي تم تنظيمها في شكل دفاتر Jupyter.

انقر على الرابط للبحث عن الدروس ومجموعات البيانات ذات الصلة:

https://hyper.ai/tutorials

HyperAI