إيغو تويين: الحلم الجسدي والمنظور من منظور الشخص الأول

رغم التقدم الكبير الذي أحرزه توليد الفيديو الخارجي (exocentric video synthesis)، إلا أن توليد الفيديو الأولي (egocentric video generation) ما زال مجالًا يُعدّ مُستكشفًا جزئيًا، نظرًا لضرورة نمذجة محتوى المنظور الأولي مع أنماط حركة الكاميرا الناتجة عن حركات جسم الحامل. ولسد هذه الفجوة، نقدّم مهمة جديدة تتمحور حول توليد مشهد فيديو أولي وحركة بشرية معًا، وتتميز بتحديين رئيسيين: أولاً، مطابقة النقطة المرئية (Viewpoint Alignment)، حيث يجب أن تتطابق مسار الكاميرا في الفيديو المُولَّد بدقة مع مسار الرأس المستخلص من حركة الإنسان. ثانيًا، التفاعل السببي (Causal Interplay)، حيث يجب أن تكون الحركة البشرية المُولَّدة متوافقة سببيًا مع الديناميات البصرية المُلاحظة بين الإطارات المتتالية في الفيديو. ولمعالجة هذين التحديين، نقترح إطارًا جديدًا يُسمى EgoTwin، وهو إطار متكامل لتوليد الفيديو والحركة، مبني على بنية المُحول التبادلي (diffusion transformer). وبشكل خاص، يقدّم EgoTwin تمثيلًا حركيًا متمحورًا حول الرأس (head-centric motion representation)، يُرتكز فيه تمثيل حركة الإنسان على مفصل الرأس، ويُضمن آلية تفاعل مستوحاة من علم السيبرنيتيك (cybernetics-inspired interaction mechanism)، والتي تُركّز صراحةً على التقاط التفاعل السببي بين الفيديو والحركة ضمن عمليات الانتباه (attention operations). ولإجراء تقييم شامل، قمنا بجمع مجموعة بيانات واقعية كبيرة الحجم تتضمّن ثلاثيات متزامنة من النصوص والفيديوهات والحركة، وصممنا مقاييس جديدة لتقييم التوافق بين الفيديو والحركة. وأظهرت التجارب الواسعة فعالية إطار EgoTwin.