HyperAIHyperAI
منذ 9 أيام

إعادة تعبئة الصور عبر التحسين المتسلسل من الطرف إلى الطرف مع الوعي بالقناع

Manyu Zhu, Dongliang He, Xin Li, Chao Li, Fu Li, Xiao Liu, Errui Ding, Zhaoxiang Zhang
إعادة تعبئة الصور عبر التحسين المتسلسل من الطرف إلى الطرف مع الوعي بالقناع
الملخص

إعادة تعبئة المناطق المفقودة بشكل عشوائي تمثل تحديًا كبيرًا نظرًا لصعوبة تعلم سمات صالحة لمنطقة مفقودة مختلفة، حيث يصعب على النماذج التعلم بشكل فعّال على هذه السمات. وعلى الرغم من أن الأطر المبنية على الهيكل المُشَكَّل على شكل حرف U (U-shaped) أثبتت نجاحها في هذا المجال، إلا أن معظمها تعاني من عيب شائع يتمثل في عدم الانتباه إلى قنوات التماسك (القنوات المفقودة) أثناء استخلاص السمات، وذلك لأن جميع نوافذ الت convolution (أو المناطق)، بما في ذلك تلك التي تتضمن مناطق مفقودة بأحجام وأشكال مختلفة، تُعالج بنفس الطريقة، وتُمرّر عبر نوى تعلم ثابتة. ولحل هذه المشكلة، نقترح حلًا جديدًا يعتمد على الوعي بالقنوات المفقودة (Mask-aware). أولاً، تم تصميم وحدة تصفية ديناميكية واعية بالقنوات المفقودة (MADF) لاستخلاص سمات متعددة المقاييس بشكل فعّال في المناطق المفقودة أثناء مرحلة الترميز. وبشكل خاص، يتم توليد النوى (الفلاتر) الخاصة بكل نافذة تصفية من خلال ميزات المنطقة المقابلة في القنوات المفقودة. أما الجانب الثاني للوعي بالقنوات المفقودة، فيتحقق من خلال استخدام التطبيع النقطي (Point-wise Normalization - PN) في مرحلة التفكيك، نظرًا لاختلاف الطبيعة الإحصائية للسمات عند النقاط المفقودة مقارنةً بالنقاط غير المفقودة. وتُعالج هذه المشكلة من خلال التمكين الديناميكي لمعامل التحجيم (scaling factor) والانزياح (bias) لكل نقطة على حدة. وأخيرًا، تم تصميم نموذجنا ليكون نموذجًا تكامليًا (end-to-end) يعتمد على تحسين متسلسل (cascaded refinement). وتُستخدم معلومات التوجيه، مثل خسارة إعادة البناء (reconstruction loss) وLoss الملاحظة البصرية (perceptual loss) وLoss التباين الكلي (total variation loss)، بشكل تدريجي لتحسين نتائج إعادة التعبئة من المستوى الخشن إلى الدقيق. وقد تم التحقق من فعالية الإطار المقترح من خلال تجارب واسعة على ثلاث مجموعات بيانات عامة، تشمل Places2 وCelebA وParis StreetView، من حيث الأداء الكمي والنوعي.