HyperAIHyperAI

Command Palette

Search for a command to run...

عرض توضيحي لنموذج مزامنة الشفاه عالي الجودة من MuseTalk

Date

منذ عام واحد

Size

2.41 GB

تتضمن ميزات MuseTalk ما يلي:

  • الوقت الحقيقي: القدرة على التشغيل في بيئة الوقت الحقيقي، وتحقيق سرعة معالجة تزيد عن 30 إطارًا في الثانية لضمان مزامنة الشفاه بسلاسة.
  • مزامنة عالية الجودة: يتم استخدام طريقة طلاء المساحة الكامنة لضبط شكل الفم بناءً على الصوت المدخل مع الحفاظ على ملامح الوجه، مما يحقق مزامنة شفاه عالية الجودة.
  • يعمل مع MuseV: يمكن استخدام MuseTalk مع نموذج MuseV، وهو إطار عمل لإنشاء الفيديو يمكنه إنشاء مقاطع فيديو بشرية افتراضية.
  • مفتوح المصدر: تم جعل كود MuseTalk مفتوح المصدر لتسهيل مساهمات المجتمع والمزيد من التطوير.

يتميز برنامج MuseTalk بقدرته على توليد مزامنة الشفاه، كما يمكنه توليد مزامنة شفاه دقيقة مع تناسق جيد للصورة، وخاصة لتوليد مقاطع فيديو حقيقية. كما أن لها مزايا عند مقارنتها بمنتجات أخرى مثل EMO، وAniPortrait، وVlogger، وVASA-1 من Microsoft.


أمثلة التأثير

إطار النموذج



MuseTalk  يتم إجراء التدريب في مساحة كامنة حيث يتم ترميز الصور بواسطة VAE مجمد. يتم ترميز الصوت بواسطة نموذج همسي صغير متجمد. تم استعارة هندسة الشبكة التوليدية من UNet في stable-diffusion-v1-4، حيث يتم دمج تضمينات الصوت مع تضمينات الصور عبر الاهتمام المتبادل.

خطوات التشغيل


1. انقر فوق "استنساخ" في الزاوية اليمنى العليا للمشروع، ثم انقر فوق "التالي" لإكمال الخطوات التالية: المعلومات الأساسية > تحديد قوة الحوسبة > المراجعة. وأخيرًا، انقر فوق "متابعة" لفتح هذا المشروع في الحاوية الشخصية.
2. بعد اكتمال تخصيص الموارد، انسخ عنوان API مباشرةً والصقه في أي عنوان URL (يجب إكمال مصادقة الاسم الحقيقي، ولا توجد حاجة لفتح مساحة العمل لهذه الخطوة)
3. تحميل ملفات الصوت والفيديو للتوليف

بعد الاختبار: يستغرق الأمر حوالي 3 دقائق لإنشاء ملف صوتي مدته 17 ثانية؛ يستغرق إنشاء ملف صوتي مدته دقيقة واحدة حوالي 6 دقائق.

-|MuseTalk  يمكن تعديل شكل الوجه والفم وفقًا للصوت المدخل. يفضل أن يكون حجم مساحة الوجه 256×256. في نفس الوقت MuseTalk  كما أنه يدعم تعديل مقترحات نقطة مركز منطقة الوجه، مما سيؤثر بشكل كبير على النتائج الناتجة.

-|حاليا MuseTalk  يدعم إدخال الصوت بالعديد من اللغات بما في ذلك الصينية والإنجليزية واليابانية وغيرها.

- تعتمد مدة الفيديو النهائية التي تم إنشاؤها على مدة الصوت.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
عرض توضيحي لنموذج مزامنة الشفاه عالي الجودة من MuseTalk | Notebooks | HyperAI