التوافق الصوري باستخدام المحولات

تمهيد الصور، التي تهدف إلى جعل الصور المركبة تبدو أكثر واقعية، هي مهمة مهمة وصعبة. تُكوَّن الصورة المركبة عن طريق دمج الصورة الأمامية من صورة واحدة مع الخلفية من صورة أخرى، لكنها تعاني بالضرورة من مشكلة التباين البصري الناتج عن ظروف تصوير مختلفة، أي اختلافات في الإضاءة. تُعتمد الحلول الحالية بشكل رئيسي على بنية مشفر-فكك (encoder-decoder) مبنية على الشبكات العصبية التلافيفية (CNN) لالتقاط السياق في الصور المركبة، محاولةً فهم مظهر الصورة في البيئة المحيطة بالصورة الأمامية. في هذا العمل، نسعى إلى حل مشكلة توحيد الصور باستخدام نموذج Transformer، مستفيدين من قدرته القوية في نمذجة الاعتماديات السياقية على مدى طويل، بهدف تعديل إضاءة الصورة الأمامية لجعلها متوافقة مع إضاءة الخلفية، مع الحفاظ على البنية والمعاني دون تغيير. نقدّم تصميمًا لنماذج Transformer الخاصة بتوحيد الصور، سواء دون فصل (disentanglement) أو معه، بالإضافة إلى تجارب شاملة ودراسة تحليلية (ablation study)، مما يُظهر القوة الحقيقية لنموذج Transformer، ويدرس استخدامه في مجال الرؤية الحاسوبية. حقق نهجنا أداءً متقدمًا (state-of-the-art) في كل من توحيد الصور وتقنيات استكمال الصور (image inpainting) وتحسينها، مما يدل على تفوقه. يمكن الوصول إلى الكود والنماذج الخاصة بنا من خلال الرابط التالي: https://github.com/zhenglab/HarmonyTransformer.