HyperAIHyperAI

Command Palette

Search for a command to run...

Console
منذ 18 ساعات

PersonaLive! توليد حركة صورة الوجه التعبيرية للبث الحي

Zhiyuan Li Chi-Man Pun Chen Fang Jue Wang Xiaodong Cun

PersonaLive! توليد حركة صورة الوجه التعبيرية للبث الحي

الملخص

النماذج الحالية القائمة على الانتشار (diffusion-based) لترميز الوجوه تركز بشكل رئيسي على تحسين الجودة البصرية وواقعية التعبيرات، مع تجاهل مسألة زمن التوليد والأداء في الوقت الفعلي، مما يحد من نطاق تطبيقاتها في سيناريوهات البث المباشر. نقترح منصة "PersonaLive"، وهي إطار عمل جديد قائمة على الانتشار، مصمم لتوليد تعبيرات وجوه حية في الوقت الفعلي، باستخدام وصفات تدريب متعددة المراحل. بشكل محدد، نستخدم في البداية إشارات ضمنية هجينة، تشمل تمثيلات وجوه ضمنية ونقاط مفاتيح ثلاثية الأبعاد ضمنية، لتحقيق تحكم دقيق في الحركة على مستوى الصورة. ثم نقترح استراتيجية استخلاص مظهرية بخطوات أقل للقضاء على التكرار في المظهر أثناء عملية إزالة الضوضاء، مما يحسن بشكل كبير كفاءة الاستنتاج. وأخيرًا، نقدم نموذجًا جديدًا للبث التلقائي على شكل وحدات صغيرة (micro-chunk streaming generation) يعتمد على التوليد التكراري (autoregressive)، مزودًا بخوارزمية تدريب منزلقة وآلية لحفظ الإطارات الرئيسية السابقة، مما يمكّن من توليد مقاطع فيديو طويلة بتأخير منخفض وثبات عالٍ. أظهرت التجارب الواسعة أن "PersonaLive" تحقق أداءً متفوقًا على المستويات الحالية، مع تسريع يصل إلى 7-22 مرة مقارنة بالنماذج السابقة القائمة على الانتشار لتوليد تعبيرات الوجوه.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp