تعلم حقول التدفق في الانتباه لتكوين صور الأشخاص القابلة للتحكم

تهدف توليد الصور الشخصية القابلة للتحكم إلى إنشاء صورة شخصية مشروطة بصور مرجعية، مما يسمح بالتحكم الدقيق في مظهر الشخص أو وضعه. ومع ذلك، فإن الطرق السابقة غالبًا ما تشوه التفاصيل النسيجية الدقيقة من الصورة المرجعية، رغم تحقيقها لجودة صورة عالية بشكل عام. نعزى هذه التشوهات إلى عدم وجود اهتمام كافٍ بالمناطق المقابلة في الصورة المرجعية. لحل هذه المشكلة، نقترح تعلم حقول التدفق في الانتباه (Leffa)، والتي توجه بشكل صريح الاستعلام المستهدف إلى المفتاح المرجعي الصحيح في طبقة الانتباه أثناء التدريب. يتم تحقيق هذا من خلال خسارة تنظيمية فوق خريطة الانتباه داخل نموذج أساسي يستند إلى الانتشار. تُظهر تجاربنا الواسعة أن Leffa تحقق أداءً رائدًا في التحكم بالمظهر (تجربة افتراضية) والوضع (نقل الوضع)، مع الحد بشكل كبير من تشوهات التفاصيل الدقيقة بينما تحتفظ بجودة صورة عالية. بالإضافة إلى ذلك، نُظهر أن خسارتنا مستقلة عن النموذج ويمكن استخدامها لتحسين أداء نماذج الانتشار الأخرى.