نموذج الحركة من الدرجة الأولى لترميز الصور

تتكون الرسوم المتحركة الصورية من إنشاء تسلسل فيديو بحيث يتم تحريك كائن موجود في صورة مصدرية وفقًا لحركة فيديو مُدَرِّب. يعالج إطار عملنا هذه المشكلة دون استخدام أي تسميات أو معلومات سابقة حول الكائن المحدد الذي يجب تحريكه. بعد التدريب على مجموعة من الفيديوهات التي تعرض كائنات من نفس الفئة (مثل الوجوه، أجسام البشر)، يمكن تطبيق طريقة我们的 على أي كائن من هذه الفئة. لتحقيق ذلك، نُفصِّل بين معلومات المظهر والحركة باستخدام صيغة ذاتية التدريب (self-supervised). ولدعم الحركات المعقدة، نستخدم تمثيلًا يتكون من مجموعة من النقاط المرجعية المُدرَّبة إلى جانب تحويلاتها التماثلية المحلية. ويُنظَم شبكة المُولِّد (generator network) التغطية التي تحدث أثناء الحركات المستهدفة، وتحلل المظهر المستخرج من الصورة المصدرية مع الحركة المستمدة من الفيديو المُدَرِّب. ويُسجَّل إطار العمل لدينا أفضل النتائج في مجموعة متنوعة من المعايير، وعلى فئات كائنات مختلفة. وتم الإعلان عن الكود المصدري للإطار بشكل علني.