HyperAIHyperAI

Command Palette

Search for a command to run...

إيغو تويين: الحلم الجسدي والمنظور من منظور الشخص الأول

Jingqiao Xiu Fangzhou Hong Yicong Li Mengze Li Wentao Wang Sirui Han Liang Pan Ziwei Liu

الملخص

رغم التقدم الكبير الذي أحرزه توليد الفيديو الخارجي (exocentric video synthesis)، إلا أن توليد الفيديو الأولي (egocentric video generation) ما زال مجالًا يُعدّ مُستكشفًا جزئيًا، نظرًا لضرورة نمذجة محتوى المنظور الأولي مع أنماط حركة الكاميرا الناتجة عن حركات جسم الحامل. ولسد هذه الفجوة، نقدّم مهمة جديدة تتمحور حول توليد مشهد فيديو أولي وحركة بشرية معًا، وتتميز بتحديين رئيسيين: أولاً، مطابقة النقطة المرئية (Viewpoint Alignment)، حيث يجب أن تتطابق مسار الكاميرا في الفيديو المُولَّد بدقة مع مسار الرأس المستخلص من حركة الإنسان. ثانيًا، التفاعل السببي (Causal Interplay)، حيث يجب أن تكون الحركة البشرية المُولَّدة متوافقة سببيًا مع الديناميات البصرية المُلاحظة بين الإطارات المتتالية في الفيديو. ولمعالجة هذين التحديين، نقترح إطارًا جديدًا يُسمى EgoTwin، وهو إطار متكامل لتوليد الفيديو والحركة، مبني على بنية المُحول التبادلي (diffusion transformer). وبشكل خاص، يقدّم EgoTwin تمثيلًا حركيًا متمحورًا حول الرأس (head-centric motion representation)، يُرتكز فيه تمثيل حركة الإنسان على مفصل الرأس، ويُضمن آلية تفاعل مستوحاة من علم السيبرنيتيك (cybernetics-inspired interaction mechanism)، والتي تُركّز صراحةً على التقاط التفاعل السببي بين الفيديو والحركة ضمن عمليات الانتباه (attention operations). ولإجراء تقييم شامل، قمنا بجمع مجموعة بيانات واقعية كبيرة الحجم تتضمّن ثلاثيات متزامنة من النصوص والفيديوهات والحركة، وصممنا مقاييس جديدة لتقييم التوافق بين الفيديو والحركة. وأظهرت التجارب الواسعة فعالية إطار EgoTwin.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إيغو تويين: الحلم الجسدي والمنظور من منظور الشخص الأول | مستندات | HyperAI