HyperAIHyperAI
منذ 2 أشهر

تعلم حقول التدفق في الانتباه لتكوين صور الأشخاص القابلة للتحكم

Zijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manuel Pérez-Rúa, Aditya Patel, Tao Xiang, Miaojing Shi, Sen He
تعلم حقول التدفق في الانتباه لتكوين صور الأشخاص القابلة للتحكم
الملخص

تهدف توليد الصور الشخصية القابلة للتحكم إلى إنشاء صورة شخصية مشروطة بصور مرجعية، مما يسمح بالتحكم الدقيق في مظهر الشخص أو وضعه. ومع ذلك، فإن الطرق السابقة غالبًا ما تشوه التفاصيل النسيجية الدقيقة من الصورة المرجعية، رغم تحقيقها لجودة صورة عالية بشكل عام. نعزى هذه التشوهات إلى عدم وجود اهتمام كافٍ بالمناطق المقابلة في الصورة المرجعية. لحل هذه المشكلة، نقترح تعلم حقول التدفق في الانتباه (Leffa)، والتي توجه بشكل صريح الاستعلام المستهدف إلى المفتاح المرجعي الصحيح في طبقة الانتباه أثناء التدريب. يتم تحقيق هذا من خلال خسارة تنظيمية فوق خريطة الانتباه داخل نموذج أساسي يستند إلى الانتشار. تُظهر تجاربنا الواسعة أن Leffa تحقق أداءً رائدًا في التحكم بالمظهر (تجربة افتراضية) والوضع (نقل الوضع)، مع الحد بشكل كبير من تشوهات التفاصيل الدقيقة بينما تحتفظ بجودة صورة عالية. بالإضافة إلى ذلك، نُظهر أن خسارتنا مستقلة عن النموذج ويمكن استخدامها لتحسين أداء نماذج الانتشار الأخرى.

تعلم حقول التدفق في الانتباه لتكوين صور الأشخاص القابلة للتحكم | أحدث الأوراق البحثية | HyperAI