HyperAIHyperAI

Command Palette

Search for a command to run...

عرض توضيحي لنموذج مزامنة الشفاه عالي الجودة من MuseTalk

تتضمن ميزات MuseTalk ما يلي:

  • الوقت الحقيقي: القدرة على التشغيل في بيئة الوقت الحقيقي، وتحقيق سرعة معالجة تزيد عن 30 إطارًا في الثانية لضمان مزامنة الشفاه بسلاسة.
  • مزامنة عالية الجودة: يتم استخدام طريقة طلاء المساحة الكامنة لضبط شكل الفم بناءً على الصوت المدخل مع الحفاظ على ملامح الوجه، مما يحقق مزامنة شفاه عالية الجودة.
  • يعمل مع MuseV: يمكن استخدام MuseTalk مع نموذج MuseV، وهو إطار عمل لإنشاء الفيديو يمكنه إنشاء مقاطع فيديو بشرية افتراضية.
  • مفتوح المصدر: تم جعل كود MuseTalk مفتوح المصدر لتسهيل مساهمات المجتمع والمزيد من التطوير.

يتميز برنامج MuseTalk بقدرته على توليد مزامنة الشفاه، كما يمكنه توليد مزامنة شفاه دقيقة مع تناسق جيد للصورة، وخاصة لتوليد مقاطع فيديو حقيقية. كما أن لها مزايا عند مقارنتها بمنتجات أخرى مثل EMO، وAniPortrait، وVlogger، وVASA-1 من Microsoft.


أمثلة التأثير

إطار النموذج



MuseTalk  يتم إجراء التدريب في مساحة كامنة حيث يتم ترميز الصور بواسطة VAE مجمد. يتم ترميز الصوت بواسطة نموذج همسي صغير متجمد. تم استعارة هندسة الشبكة التوليدية من UNet في stable-diffusion-v1-4، حيث يتم دمج تضمينات الصوت مع تضمينات الصور عبر الاهتمام المتبادل.

خطوات التشغيل


1. انقر فوق "استنساخ" في الزاوية اليمنى العليا للمشروع، ثم انقر فوق "التالي" لإكمال الخطوات التالية: المعلومات الأساسية > تحديد قوة الحوسبة > المراجعة. وأخيرًا، انقر فوق "متابعة" لفتح هذا المشروع في الحاوية الشخصية.
2. بعد اكتمال تخصيص الموارد، انسخ عنوان API مباشرةً والصقه في أي عنوان URL (يجب إكمال مصادقة الاسم الحقيقي، ولا توجد حاجة لفتح مساحة العمل لهذه الخطوة)
3. تحميل ملفات الصوت والفيديو للتوليف

بعد الاختبار: يستغرق الأمر حوالي 3 دقائق لإنشاء ملف صوتي مدته 17 ثانية؛ يستغرق إنشاء ملف صوتي مدته دقيقة واحدة حوالي 6 دقائق.

-|MuseTalk  يمكن تعديل شكل الوجه والفم وفقًا للصوت المدخل. يفضل أن يكون حجم مساحة الوجه 256×256. في نفس الوقت MuseTalk  كما أنه يدعم تعديل مقترحات نقطة مركز منطقة الوجه، مما سيؤثر بشكل كبير على النتائج الناتجة.

-|حاليا MuseTalk  يدعم إدخال الصوت بالعديد من اللغات بما في ذلك الصينية والإنجليزية واليابانية وغيرها.

- تعتمد مدة الفيديو النهائية التي تم إنشاؤها على مدة الصوت.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
عرض توضيحي لنموذج مزامنة الشفاه عالي الجودة من MuseTalk | الدروس | HyperAI