إعادة تلوين الصور المستندة إلى السياق لتقدير متزامن للخلفية وقيمة ألفا

تُعد عملية إزالة الخلفية من الصور الطبيعية (Natural Image Matting) مشكلة مهمة في مجال الرؤية الحاسوبية والرسومات الحاسوبية. وهي مشكلة غير محددة (ill-posed) عندما تكون الصورة المدخلة الوحيدة المتوفرة دون أي معلومات خارجية. وعلى الرغم من النتائج الواعدة التي أظهرتها الأساليب القائمة على التعلم العميق حديثًا، إلا أنها تقتصر على تقدير لون الشفافية (alpha matte) فقط. تقدم هذه الورقة طريقة جديدة لاستخلاص الخلفية من الصور الطبيعية تراعي السياق، وتُقدِّم تقديرًا متزامنًا للخلفية الأمامية (foreground) ولون الشفافية (alpha matte). تعتمد طريقة العمل على استخدام شبكة مشفرة (encoder) مزدوجة لاستخراج المعلومات الأساسية اللازمة لعملية الاستخلاص. وبشكل خاص، نستخدم شبكة مشفرة مخصصة للاستخلاص (matting encoder) لاستخلاص السمات المحلية، وشبكة مشفرة أخرى (context encoder) لاستخلاص معلومات السياق العالمية. ثم نُدمج النتائج الناتجة من هاتين الشبكتين ونُدخلها إلى شبكة فك التشفير (decoder) لتقدير الخلفية الأمامية ولون الشفافية في آن واحد. ولتدريب الشبكة العصبية العميقة الكاملة، نستخدم كلاً من خسارة لابلاس القياسية (standard Laplacian loss) وخاصية الخسارة المُستندة إلى السمات (feature loss): حيث تساعد الخسارة الأولى على تحقيق أداء عددي عالي، بينما تؤدي الخسارة الثانية إلى نتائج أكثر واقعية من الناحية البصرية. كما نُقدِّم عدة استراتيجيات لتعزيز البيانات (data augmentation) التي ساهمت بشكل كبير في تحسين أداء التعميم للشبكة. وتشير التجارب الكمية والكيفية إلى أن طريقة العمل المقدمة تُتيح استخلاصًا عالي الجودة لصورة طبيعية واحدة. وتم إتاحة رمز التنفيذ (inference codes) والنموذج الخاص بنا للجمهور عبر الرابط التالي: https://github.com/hqqxyy/Context-Aware-Matting.