PersonaLive! توليد حركة صورة الوجه التعبيرية للبث الحي
PersonaLive! توليد حركة صورة الوجه التعبيرية للبث الحي
Zhiyuan Li Chi-Man Pun Chen Fang Jue Wang Xiaodong Cun

الملخص
النماذج الحالية القائمة على الانتشار (diffusion-based) لترميز الوجوه تركز بشكل رئيسي على تحسين الجودة البصرية وواقعية التعبيرات، مع تجاهل مسألة زمن التوليد والأداء في الوقت الفعلي، مما يحد من نطاق تطبيقاتها في سيناريوهات البث المباشر. نقترح منصة "PersonaLive"، وهي إطار عمل جديد قائمة على الانتشار، مصمم لتوليد تعبيرات وجوه حية في الوقت الفعلي، باستخدام وصفات تدريب متعددة المراحل. بشكل محدد، نستخدم في البداية إشارات ضمنية هجينة، تشمل تمثيلات وجوه ضمنية ونقاط مفاتيح ثلاثية الأبعاد ضمنية، لتحقيق تحكم دقيق في الحركة على مستوى الصورة. ثم نقترح استراتيجية استخلاص مظهرية بخطوات أقل للقضاء على التكرار في المظهر أثناء عملية إزالة الضوضاء، مما يحسن بشكل كبير كفاءة الاستنتاج. وأخيرًا، نقدم نموذجًا جديدًا للبث التلقائي على شكل وحدات صغيرة (micro-chunk streaming generation) يعتمد على التوليد التكراري (autoregressive)، مزودًا بخوارزمية تدريب منزلقة وآلية لحفظ الإطارات الرئيسية السابقة، مما يمكّن من توليد مقاطع فيديو طويلة بتأخير منخفض وثبات عالٍ. أظهرت التجارب الواسعة أن "PersonaLive" تحقق أداءً متفوقًا على المستويات الحالية، مع تسريع يصل إلى 7-22 مرة مقارنة بالنماذج السابقة القائمة على الانتشار لتوليد تعبيرات الوجوه.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.