HyperAI

دامدان، الأغنية الإلهية لمحطة بي: يكمن جوهرها في تغيير الوجه، ويمكنك تعلمها في خمس دقائق

特色图像

تظهر تقنيات الذكاء الاصطناعي التي تغير الوجوه في تيار لا نهاية له، ولكن كل جيل أفضل من الجيل السابق. في الآونة الأخيرة، أصبح نموذج الحركة من الدرجة الأولى لتغيير الوجه بالذكاء الاصطناعي المنشور في NeurIPs 2019 شائعًا، وتأثير نقل التعبير الخاص به أفضل من الطرق الأخرى في نفس المجال. في الآونة الأخيرة، أحدثت هذه التكنولوجيا اتجاهًا جديدًا في محطة B...

في الآونة الأخيرة، ظهرت موجة من مقاطع الفيديو ذات النمط "الخام" المفرط (مصطلحات محطة B، وتعني الفكاهة الشيطانية) على Bilibili، وحققت ملايين المشاهدات، مما جعلها تحظى بشعبية كبيرة.

أسياد أعلى مع المهارات الكاملة، استخدم 「نموذج الحركة من الدرجة الأولى والحركة من الدرجة الأولى」أنتج مشروع تغيير الوجه بالذكاء الاصطناعي مجموعة متنوعة من مقاطع الفيديو ذات الأنماط الفريدة.

على سبيل المثال، غنى جاكي تشيونج، ودو فو، وتانج مونك، ورمز رأس الباندا، أغنيتي "دامدان" و"أنرافيل" بمشاعر عظيمة... تبدو الصورة كالتالي:

نسخة تانغ سينغ من "Unravel"، المصدر: محطة B المعلم الأعلى: رجل صوف خشن
نسخة دو فو من "Unravel"، من محطة B، المعلم الأعلى: cold_joke

إذا لم تكن راضيًا عن الصور المتحركة، فلننتقل مباشرة إلى الفيديو:

نسخة القطة الباكية من أغنية غسيل المخ "damedane"، والتي تم تشغيلها 2.113 مليون مرة حتى الآن، المصدر: محطة B، شعر كثيف سيد هو توتو

علي أن أقول، إنه أمر يسبب الإدمان بعض الشيء... يمكنك الذهاب إلى المحطة الصغيرة المكسورة للبحث عن المزيد من الأعمال لمشاهدتها.

وقد جذبت هذه الفيديوهات عددًا لا يحصى من مستخدمي الإنترنت لتجربة الأمر، وقد تركوا رسائل يطلبون فيها دروسًا تعليمية. والآن دعونا نلقي نظرة على التقنيات التي تحقق هذه التأثيرات المتغيرة للوجه (جذر كل الشرور):نموذج الحركة من الدرجة الأولى.

محطة Learning Garden B، دروس تعليمية متعددة لتعليمك مزامنة الشفاه

حتى الآن، ظهرت تقنيات مماثلة لتغيير الوجه ومزامنة الشفاه في تيار لا نهاية له، وفي كل مرة يتم اقتراح واحدة منها، فإنها ستؤدي إلى موجة من جنون تغيير الوجه.

يعد نموذج الحركة من الدرجة الأولى شائعًا جدًا لأنه فعال في تحسين ملامح الوجه وشكل الشفاه، كما أنه سهل الاستخدام وفعال في التنفيذ.

لقد قام المعلمون في المحطة B بتحميل العديد من الدروس التعليمية بشكل نشط.

على سبيل المثال، إذا كنت تريد تغيير وجه "damedane" في بداية المقال،لا يستغرق الأمر سوى بضع ثوانٍ لتحقيقه ويمكن تعلمه في خمس دقائق.

يختار معظم المستخدمين الذين يقومون بالتحميل على Bilibili Google Drive وColab لإجراء البرامج التعليمية. نظرًا لصعوبة التحايل على جدار الحماية، فقد اخترنا برنامجًا تعليميًا من أحد أساتذة التطوير واستخدمنا خدمة حاوية قوة الحوسبة المحلية للتعلم الآلي (https://openbayes.com), والآن يمكنك أيضًا الاستفادة من وقت استخدام vGPU المجاني كل أسبوع لإكمال هذا البرنامج التعليمي بسهولة.

تحديث 2020-09-30: حاليًا، قامت bilibili بإزالة جميع مقاطع الفيديو المتعلقة بـ "تغيير الوجه بالذكاء الاصطناعي"، لذلك أضاف فريق OpenBayes نسخة نصية مقابلة من البرنامج التعليمي خطوة بخطوة:

يمكنك إكمال "damedane" الخاص بك في أقل من 5 دقائق

يوضح مقطع الفيديو التعليمي هذا خطوة بخطوة، بحيث يمكن حتى للمبتدئين تعلم تقنية تغيير الوجه هذه بسهولة. قام المشرف أيضًا برفع دفتر الملاحظات إلى المنصة، ويمكن استخدامه مباشرة بمجرد استنساخه بنقرة واحدة.

ومع ذلك، قال العديد من مقدمي البرامج التقنية أنهم بالإضافة إلى الترفيه، فإنهم يصنعون مقاطع فيديو للتبادلات التقنية، لذا فهم يأملون ألا يسيء الجميع استخدامها بشكل خبيث.

عنوان الفيديو التعليمي:

https://openbayes.com/console/openbayes/containers/BwZQj5wr3Jp

عنوان المشروع الأصلي على Github:

https://github.com/AliaksandrSiarohin/first-order-model

أداة أخرى لتغيير الوجه، ما فائدتها؟

يأتي نموذج الحركة من الدرجة الأولى من ورقة بحثية تم تقديمها في المؤتمر الرائد NeurlPS 2019.نموذج الحركة من الدرجة الأولى للرسوم المتحركة للصور،المؤلفون من جامعة ترينتو في إيطاليا و.

عنوان الورقة: https://arxiv.org/pdf/2003.00196.pdf

كما يمكنك أن تقول من العنوان،الهدف من هذه الورقة هو جعل الصور الثابتة تتحرك.بالنظر إلى صورة المصدر وفيديو القيادة، اجعل الصورة الموجودة في صورة المصدر تتحرك مع الإجراءات الموجودة في فيديو القيادة. أي تحريك كل شيء.

ويظهر التأثير في الشكل أدناه. الزاوية العلوية اليسرى هي فيديو القيادة، والباقي عبارة عن صور ثابتة المصدر:

  تكوين إطار النموذج 

بشكل عام، يتكون إطار نموذج الحركة من الدرجة الأولى من وحدتين:وحدة تقدير الحركة ووحدة توليد الصور.

وحدة تقدير الحركة:من خلال التعلم الذاتي، يتم فصل معلومات المظهر والحركة الخاصة بالهدف وتمثيل الميزات.

وحدة توليد الصور:يقوم النموذج بإنشاء نماذج للانسدادات التي تحدث أثناء حركة الهدف، ثم يستخرج معلومات المظهر من صورة المشاهير المعينة ويجمعها مع تمثيل الميزة التي تم الحصول عليها مسبقًا لتوليف الفيديو.

نظرة عامة على الطريقة

  كيف هو أفضل من النموذج التقليدي؟

قد يتساءل البعض، كيف يختلف هذا عن أساليب تغيير الوجه السابقة باستخدام الذكاء الاصطناعي؟ المؤلف يعطي تفسيرا.

تتطلب عملية تغيير الوجه السابقة العمليات التالية:

  • عادةً ما يكون من الضروري إجراء تدريب مسبق على بيانات صورة الوجه لكلا الطرفين المراد تبادلهما؛
  • من الضروري توضيح النقاط الرئيسية للصورة المصدرية ثم إجراء تدريب النموذج المقابل.

لكن في الواقع، هناك بيانات أقل عن الوجوه الشخصية وليس هناك الكثير من الوقت للتدريب.لذلك، تعمل النماذج التقليدية عادةً بشكل أفضل على صور محددة، ولكن عند استخدامها على عامة الناس، يكون من الصعب ضمان الجودة وهي عرضة للفشل.

قد تؤدي الطريقة السابقة إلى نقل تعبير غير دقيق

لذلك، فإن الطريقة المقترحة في هذه الورقة تحل مشكلة الاعتماد على البيانات وتحسن كفاءة التوليد بشكل كبير. تريد تحقيق التعبير ونقل الفعل،فقطكل ما يحتاج إلى تدريبه هو مجموعات بيانات الصور من نفس الفئة.

على سبيل المثال، إذا كنت تريد تحقيق نقل التعبير، بغض النظر عن الوجه الذي تستبدله، فأنت تحتاج فقط إلى التدريب على مجموعة بيانات الوجه؛ إذا كنت تريد تحقيق نقل حركة التاي تشي، فيمكنك استخدام مجموعة بيانات فيديو التاي تشي للتدريب.

بعد اكتمال التدريب، وباستخدام النموذج المدرب مسبقًا، يمكنك جعل صورة المصدر تتحرك مع مقطع الفيديو القيادي.

مقارنة تأثير التدريب لهذه الطريقة مع طرق أخرى على نفس مجموعة البيانات،الطريقتان الثانية والثالثة سيكون لهما انحرافات في نقل الحركة البشرية

قام المؤلف بمقارنة طريقته مع أكثر الطرق تقدما في هذا المجال، X2Face و Monkey-Net. وأظهرت النتائج أنه في نفس مجموعة البيانات، تم تحسين جميع مؤشرات هذه الطريقة.في مجموعتي بيانات الوجه (VoxCeleb وNemo)، تتفوق طريقتنا أيضًا بشكل كبير على X2Face، والذي تم اقتراحه في الأصل لتوليد الوجه.

أداء داميدان العاطفي للنموذج الأولي للفيديو المتغير للوجه

-- زيادة--