الهيكل الهرمي الموجه بالانتباه لدمج البنية في التحجيم الصوتي

تستند الخوارزميات الحالية القائمة على التعلم العميق لاستخلاص التدرجات (matting) بشكل رئيسي على السمات الدلالية عالية المستوى لتحسين البنية العامة لخرائط الألفا (alpha mattes). ومع ذلك، نحن نرى أن السمات المتقدمة المستخلصة من الشبكات العصبية التلافيفية (CNNs) تساهم بشكل غير متساوٍ في إدراك ألفا، ومن ثم ينبغي لنا التوفيق بين المعلومات الدلالية المتقدمة والدلائل البصرية منخفضة المستوى لتحسين تفاصيل الكائن الأمامي. في هذه الورقة، نقترح شبكة تدرجات انتباه هرمية متكاملة (HAttMatting) تعمل بشكل نهائي (end-to-end)، والتي يمكنها التنبؤ ببنية أفضل لخرائط الألفا من صور RGB واحدة دون الحاجة إلى مدخلات إضافية. بشكل خاص، نستخدم انتباهًا مكانيًا واتجاهيًا (channel-wise) لدمج دلائل المظهر والسمات الهرمية بطريقة مبتكرة. يمكن لآلية الانتباه المدمجة هذه إدراك خرائط الألفا من خلال حدود مُحسَّنة ودلائل دلالية تكيفية. كما نقدم دالة خسارة هجينة تدمج بين معامل التشابه الهيكلي (SSIM) وخطأ المربعات المتوسط (MSE) والخسارة العدوية (Adversarial loss)، بهدف توجيه الشبكة لتحسين البنية الكلية للكائن الأمامي بشكل أكبر. بالإضافة إلى ذلك، قمنا ببناء مجموعة بيانات ضخمة لاستخلاص التدرجات تتضمن 59,600 صورة تدريبية و1000 صورة اختبارية (إجمالي 646 خريطة ألفا منفصلة للموضوع الأمامي)، مما يعزز من قدرة نموذج التجميع الهرمي على التحمل والموثوقية. تُظهر التجارب الواسعة أن HAttMatting المقترح قادر على التقاط البنية المعقدة للكائن الأمامي وتحقيق أداءً متفوقًا على مستوى التقنيات الحالية باستخدام صور RGB واحدة كمدخلات.