HyperAIHyperAI
منذ 12 أيام

التوافق الصوري باستخدام المحولات

{Junyu Dong, Bing Zheng, Zhaorui Gu, Haiyong Zheng, Dongsheng Guo, Zonghui Guo}
التوافق الصوري باستخدام المحولات
الملخص

تمهيد الصور، التي تهدف إلى جعل الصور المركبة تبدو أكثر واقعية، هي مهمة مهمة وصعبة. تُكوَّن الصورة المركبة عن طريق دمج الصورة الأمامية من صورة واحدة مع الخلفية من صورة أخرى، لكنها تعاني بالضرورة من مشكلة التباين البصري الناتج عن ظروف تصوير مختلفة، أي اختلافات في الإضاءة. تُعتمد الحلول الحالية بشكل رئيسي على بنية مشفر-فكك (encoder-decoder) مبنية على الشبكات العصبية التلافيفية (CNN) لالتقاط السياق في الصور المركبة، محاولةً فهم مظهر الصورة في البيئة المحيطة بالصورة الأمامية. في هذا العمل، نسعى إلى حل مشكلة توحيد الصور باستخدام نموذج Transformer، مستفيدين من قدرته القوية في نمذجة الاعتماديات السياقية على مدى طويل، بهدف تعديل إضاءة الصورة الأمامية لجعلها متوافقة مع إضاءة الخلفية، مع الحفاظ على البنية والمعاني دون تغيير. نقدّم تصميمًا لنماذج Transformer الخاصة بتوحيد الصور، سواء دون فصل (disentanglement) أو معه، بالإضافة إلى تجارب شاملة ودراسة تحليلية (ablation study)، مما يُظهر القوة الحقيقية لنموذج Transformer، ويدرس استخدامه في مجال الرؤية الحاسوبية. حقق نهجنا أداءً متقدمًا (state-of-the-art) في كل من توحيد الصور وتقنيات استكمال الصور (image inpainting) وتحسينها، مما يدل على تفوقه. يمكن الوصول إلى الكود والنماذج الخاصة بنا من خلال الرابط التالي: https://github.com/zhenglab/HarmonyTransformer.

التوافق الصوري باستخدام المحولات | أحدث الأوراق البحثية | HyperAI