Command Palette
Search for a command to run...
الربط التمهيدي: الحفاظ على الهوية الشخصية في الرسوم المتحركة البشرية المُشَغَّلة صوتيًا
Junyoung Seo Rodrigo Mira Alexandros Haliassos Stella Bounareli Honglie Chen Linh Tran Seungryong Kim Zoe Landgraf Jie Shen

الملخص
تُعاني نماذج رؤية الإنسان المُشَغَّلة بالصوت غالبًا من تَبَعُد الهوية أثناء التوليد الزمني التلقائي (autoregressive)، حيث تفقد الشخصيات تدريجيًا هويتها مع مرور الوقت. إحدى الحلول المطروحة هي توليد الإطارات الرئيسية (keyframes) كنقاط مرجعية زمنية وسيطة تمنع التدهور، لكن هذا يتطلب مرحلة إضافية لتوليد الإطارات الرئيسية، وقد يُقيّد الديناميات الطبيعية للحركة. لمعالجة هذه المشكلة، نقترح نموذج "الارتكاز المُتَقَدِّم" (Lookahead Anchoring)، الذي يستخدم الإطارات الرئيسية من لحظات زمنية مستقبلية تقع خارج النافذة الحالية للتوليد، بدلًا من أن تكون ضمنها. وبهذا، تتحول الإطارات الرئيسية من حدود ثابتة إلى مصادر توجيه ديناميكية: حيث يواصل النموذج متابعة هذه الأهداف المستقبلية أثناء الاستجابة للإشارات الصوتية الفورية، مما يضمن الحفاظ على هوية ثابتة بفضل التوجيه المستمر. كما يمكّن هذا النموذج من "توليد إطارات رئيسية ذاتية" (self-keyframing)، حيث تُستخدم الصورة المرجعية كهدف مُتَقَدِّم، ما يُلغِي الحاجة تمامًا إلى مرحلة توليد الإطارات الرئيسية. وجدنا أن مسافة الارتكاز الزمني المُتَقَدِّم تتحكم بشكل طبيعي في التوازن بين التعبير الحركي والثبات الهويوي: فكلما زادت المسافة، زادت حرية الحركة، بينما تُعزز المسافات الأصغر الالتزام بالهوية. وعند تطبيقه على ثلاث نماذج حديثة لمحاكاة حركة الإنسان، أظهر "الارتكاز المُتَقَدِّم" تفوقًا ملحوظًا في مطابقة الشفاه، والحفاظ على الهوية، وجودة الصورة البصرية، ما يُظهر تحسينًا في التوجيه الزمني عبر عدة هياكل معمارية مختلفة. يمكن مشاهدة النتائج المرئية من خلال الرابط التالي: https://lookahead-anchoring.github.io.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.