التاريخ

منذ عام واحد

الحجم

2.41 GB

تتضمن ميزات MuseTalk ما يلي:

الوقت الحقيقي: القدرة على التشغيل في بيئة الوقت الحقيقي، وتحقيق سرعة معالجة تزيد عن 30 إطارًا في الثانية لضمان مزامنة الشفاه بسلاسة.
مزامنة عالية الجودة: يتم استخدام طريقة طلاء المساحة الكامنة لضبط شكل الفم بناءً على الصوت المدخل مع الحفاظ على ملامح الوجه، مما يحقق مزامنة شفاه عالية الجودة.
يعمل مع MuseV: يمكن استخدام MuseTalk مع نموذج MuseV، وهو إطار عمل لإنشاء الفيديو يمكنه إنشاء مقاطع فيديو بشرية افتراضية.
مفتوح المصدر: تم جعل كود MuseTalk مفتوح المصدر لتسهيل مساهمات المجتمع والمزيد من التطوير.

يتميز برنامج MuseTalk بقدرته على توليد مزامنة الشفاه، كما يمكنه توليد مزامنة شفاه دقيقة مع تناسق جيد للصورة، وخاصة لتوليد مقاطع فيديو حقيقية. كما أن لها مزايا عند مقارنتها بمنتجات أخرى مثل EMO، وAniPortrait، وVlogger، وVASA-1 من Microsoft.

أمثلة التأثير

إطار النموذج

MuseTalk يتم إجراء التدريب في مساحة كامنة حيث يتم ترميز الصور بواسطة VAE مجمد. يتم ترميز الصوت بواسطة نموذج همسي صغير متجمد. تم استعارة هندسة الشبكة التوليدية من UNet في stable-diffusion-v1-4، حيث يتم دمج تضمينات الصوت مع تضمينات الصور عبر الاهتمام المتبادل.

خطوات التشغيل

1. انقر فوق "استنساخ" في الزاوية اليمنى العليا للمشروع، ثم انقر فوق "التالي" لإكمال الخطوات التالية: المعلومات الأساسية > تحديد قوة الحوسبة > المراجعة. وأخيرًا، انقر فوق "متابعة" لفتح هذا المشروع في الحاوية الشخصية.

2. بعد اكتمال تخصيص الموارد، انسخ عنوان API مباشرةً والصقه في أي عنوان URL (يجب إكمال مصادقة الاسم الحقيقي، ولا توجد حاجة لفتح مساحة العمل لهذه الخطوة)

3. تحميل ملفات الصوت والفيديو للتوليف

بعد الاختبار: يستغرق الأمر حوالي 3 دقائق لإنشاء ملف صوتي مدته 17 ثانية؛ يستغرق إنشاء ملف صوتي مدته دقيقة واحدة حوالي 6 دقائق.

-｜MuseTalk يمكن تعديل شكل الوجه والفم وفقًا للصوت المدخل. يفضل أن يكون حجم مساحة الوجه 256×256. في نفس الوقت MuseTalk كما أنه يدعم تعديل مقترحات نقطة مركز منطقة الوجه، مما سيؤثر بشكل كبير على النتائج الناتجة.

-｜حاليا MuseTalk يدعم إدخال الصوت بالعديد من اللغات بما في ذلك الصينية والإنجليزية واليابانية وغيرها.

- تعتمد مدة الفيديو النهائية التي تم إنشاؤها على مدة الصوت.

تم المساهمة في هذا الدفتر من قبل مستخدمي المجتمع وهو مخصص لأغراض تعليمية وإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

نيموترون - بث الكلام - التعرف التلقائي على الكلام

منذ 20 أيام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

منذ 19 أيام

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

تشغيل هذا Notebook

التاريخ

منذ عام واحد

الحجم

2.41 GB

تتضمن ميزات MuseTalk ما يلي:

الوقت الحقيقي: القدرة على التشغيل في بيئة الوقت الحقيقي، وتحقيق سرعة معالجة تزيد عن 30 إطارًا في الثانية لضمان مزامنة الشفاه بسلاسة.
مزامنة عالية الجودة: يتم استخدام طريقة طلاء المساحة الكامنة لضبط شكل الفم بناءً على الصوت المدخل مع الحفاظ على ملامح الوجه، مما يحقق مزامنة شفاه عالية الجودة.
يعمل مع MuseV: يمكن استخدام MuseTalk مع نموذج MuseV، وهو إطار عمل لإنشاء الفيديو يمكنه إنشاء مقاطع فيديو بشرية افتراضية.
مفتوح المصدر: تم جعل كود MuseTalk مفتوح المصدر لتسهيل مساهمات المجتمع والمزيد من التطوير.

أمثلة التأثير

إطار النموذج

خطوات التشغيل

1. انقر فوق "استنساخ" في الزاوية اليمنى العليا للمشروع، ثم انقر فوق "التالي" لإكمال الخطوات التالية: المعلومات الأساسية > تحديد قوة الحوسبة > المراجعة. وأخيرًا، انقر فوق "متابعة" لفتح هذا المشروع في الحاوية الشخصية.

2. بعد اكتمال تخصيص الموارد، انسخ عنوان API مباشرةً والصقه في أي عنوان URL (يجب إكمال مصادقة الاسم الحقيقي، ولا توجد حاجة لفتح مساحة العمل لهذه الخطوة)

3. تحميل ملفات الصوت والفيديو للتوليف

-｜حاليا MuseTalk يدعم إدخال الصوت بالعديد من اللغات بما في ذلك الصينية والإنجليزية واليابانية وغيرها.

- تعتمد مدة الفيديو النهائية التي تم إنشاؤها على مدة الصوت.

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

منذ 3 أشهر

نيموترون - بث الكلام - التعرف التلقائي على الكلام

منذ 20 أيام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

منذ 19 أيام

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

عرض توضيحي لنموذج مزامنة الشفاه عالي الجودة من MuseTalk

أمثلة التأثير

إطار النموذج

خطوات التشغيل

2. بعد اكتمال تخصيص الموارد، انسخ عنوان API مباشرةً والصقه في أي عنوان URL (يجب إكمال مصادقة الاسم الحقيقي، ولا توجد حاجة لفتح مساحة العمل لهذه الخطوة)

3. تحميل ملفات الصوت والفيديو للتوليف

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

عرض توضيحي لنموذج مزامنة الشفاه عالي الجودة من MuseTalk

أمثلة التأثير

إطار النموذج

خطوات التشغيل

2. بعد اكتمال تخصيص الموارد، انسخ عنوان API مباشرةً والصقه في أي عنوان URL (يجب إكمال مصادقة الاسم الحقيقي، ولا توجد حاجة لفتح مساحة العمل لهذه الخطوة)

3. تحميل ملفات الصوت والفيديو للتوليف

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

عرض توضيحي لنموذج مزامنة الشفاه عالي الجودة من MuseTalk

أمثلة التأثير

إطار النموذج

خطوات التشغيل

2. بعد اكتمال تخصيص الموارد، انسخ عنوان API مباشرةً والصقه في أي عنوان URL (يجب إكمال مصادقة الاسم الحقيقي، ولا توجد حاجة لفتح مساحة العمل لهذه الخطوة)

3. تحميل ملفات الصوت والفيديو للتوليف

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2

MonkeyOCR: تحليل المستندات استنادًا إلى النموذج الثلاثي للبنية والتعرف على العلاقة

نيموترون - بث الكلام - التعرف التلقائي على الكلام

عرض توضيحي ثلاثي الأبعاد لـ TRELLIS.2