HyperAI

عرض توضيحي لنموذج مزامنة الشفاه عالي الجودة من MuseTalk

MuseTalk  إنه نموذج مزامنة الشفاه عالي الجودة في الوقت الفعلي، مدفوع بالصوت، تم تطويره بواسطة مختبر Tianqin التابع لشركة Tencent Music. إنه نموذج يستخدم خصيصًا لتوليد شكل الفم الافتراضي. يمكنه تعديل صور الوجه غير المرئية استنادًا إلى الصوت المدخل، مما يجعل حركات الوجه متزامنة للغاية مع الصوت لتحقيق تأثير مطابقة شكل الشفاه مع الصوت. يمكن تطبيق MuseTalk مع مقاطع الفيديو المدخلة، مثل تلك التي تم إنشاؤها بواسطة MuseV، كحل بشري افتراضي كامل. يمكنه إجراء استدلال في الوقت الفعلي بمعدل 30 إطارًا في الثانية + على NVIDIA Tesla V100.

تتضمن ميزات MuseTalk ما يلي:

  • الوقت الحقيقي: القدرة على التشغيل في بيئة الوقت الحقيقي، وتحقيق سرعة معالجة تزيد عن 30 إطارًا في الثانية لضمان مزامنة الشفاه بسلاسة.
  • مزامنة عالية الجودة: يتم استخدام طريقة طلاء المساحة الكامنة لضبط شكل الفم بناءً على الصوت المدخل مع الحفاظ على ملامح الوجه، مما يحقق مزامنة شفاه عالية الجودة.
  • يعمل مع MuseV: يمكن استخدام MuseTalk مع نموذج MuseV، وهو إطار عمل لإنشاء الفيديو يمكنه إنشاء مقاطع فيديو بشرية افتراضية.
  • مفتوح المصدر: تم جعل كود MuseTalk مفتوح المصدر لتسهيل مساهمات المجتمع والمزيد من التطوير.

يتميز برنامج MuseTalk بقدرته على توليد مزامنة الشفاه، كما يمكنه توليد مزامنة شفاه دقيقة مع تناسق جيد للصورة، وخاصة لتوليد مقاطع فيديو حقيقية. كما أن لها مزايا عند مقارنتها بمنتجات أخرى مثل EMO، وAniPortrait، وVlogger، وVASA-1 من Microsoft.


أمثلة التأثير

إطار النموذج



MuseTalk  يتم إجراء التدريب في مساحة كامنة حيث يتم ترميز الصور بواسطة VAE مجمد. يتم ترميز الصوت بواسطة نموذج همسي صغير متجمد. تم استعارة هندسة الشبكة التوليدية من UNet في stable-diffusion-v1-4، حيث يتم دمج تضمينات الصوت مع تضمينات الصور عبر الاهتمام المتبادل.

خطوات التشغيل


1. انقر فوق "استنساخ" في الزاوية اليمنى العليا للمشروع، ثم انقر فوق "التالي" لإكمال الخطوات التالية: المعلومات الأساسية > تحديد قوة الحوسبة > المراجعة. وأخيرًا، انقر فوق "متابعة" لفتح هذا المشروع في الحاوية الشخصية.
2. بعد اكتمال تخصيص الموارد، انسخ عنوان API مباشرةً والصقه في أي عنوان URL (يجب إكمال مصادقة الاسم الحقيقي، ولا توجد حاجة لفتح مساحة العمل لهذه الخطوة)
3. تحميل ملفات الصوت والفيديو للتوليف

بعد الاختبار: يستغرق الأمر حوالي 3 دقائق لإنشاء ملف صوتي مدته 17 ثانية؛ يستغرق إنشاء ملف صوتي مدته دقيقة واحدة حوالي 6 دقائق.

-|MuseTalk  يمكن تعديل شكل الوجه والفم وفقًا للصوت المدخل. يفضل أن يكون حجم مساحة الوجه 256×256. في نفس الوقت MuseTalk  كما أنه يدعم تعديل مقترحات نقطة مركز منطقة الوجه، مما سيؤثر بشكل كبير على النتائج الناتجة.

-|حاليا MuseTalk  يدعم إدخال الصوت بالعديد من اللغات بما في ذلك الصينية والإنجليزية واليابانية وغيرها.

- تعتمد مدة الفيديو النهائية التي تم إنشاؤها على مدة الصوت.