HyperAIHyperAI
منذ 10 أيام

CR-Fill: ترميم صور توليدي بناءً على إعادة بناء سياقي مساعد

{Vishal M. Patel, Huchuan Lu, Zhe Lin, Yu Zeng}
CR-Fill: ترميم صور توليدي بناءً على إعادة بناء سياقي مساعد
الملخص

تستخدم الطرق الحديثة للإكمال التوليدي العميق طبقات الانتباه لتمكين المولّد من سحب بقع مميزة بشكل صريح من المناطق المعروفة لإكمال المنطقة المفقودة. وبسبب انعدام إشارات المراقبة للتوافق بين المناطق المفقودة والمناطق المعروفة، قد يفشل النظام في العثور على ميزات مرجعية مناسبة، مما يؤدي غالبًا إلى ظهور تشوهات في النتائج. بالإضافة إلى ذلك، يُحسب التشابه الزوجي عبر الخريطة المميزة بأكملها أثناء الاستدلال، مما يُسبب عبئًا حسابيًا كبيرًا. لمعالجة هذه المشكلة، نقترح تعليم سلوك سحب البُقع إلى مولّد خالٍ من الانتباه من خلال تدريب مشترك لمهام إعادة بناء سياقية مساعدة، والتي تشجع المخرجات المولّدة على أن تكون معقولة حتى عند إعادة بنائها باستخدام المناطق المحيطة. يمكن اعتبار الفرع المساعد كدالة خسارة قابلة للتعلم، ويُسمّى بـ "خسارة إعادة البناء السياقي (CR loss)"، حيث يتم تحسين التشابه بين الميزات الاستعلامية والمرجعية والمُعيد بناء المُستند إلى المراجع بشكل مشترك مع مولّد الإكمال. يُطلب الفرع المساعد (أي خسارة CR) فقط أثناء التدريب، بينما يُستخدم فقط مولّد الإكمال أثناء الاستدلال. تُظهر النتائج التجريبية أن النموذج المُقترح يتفوّق على أحدث النماذج من حيث الأداء الكمي والبصري. يمكن الوصول إلى الكود عبر الرابط: https://github.com/zengxianyu/crfill.