شبكات التعلم التوافقي المولدة الشرطية المتراكبة لتعلم كشف الظل وإزالة الظل بشكل مشترك

فهم الظلال من صورة واحدة يندرج تلقائيًا في دراسات سابقة إلى نوعين من المهام، وهما اكتشاف الظل وإزالة الظل. في هذا البحث، نقدم وجهة نظر متعددة المهام لم يتم تبنيها في أي عمل موجود سابقًا، بهدف تعلم كل من الاكتشاف والإزالة معًا بطريقة متكاملة (end-to-end) تستفيد من التحسينات المتبادلة بينهما. إطارنا العملاني يستند إلى شبكة توليدية متنافسة شرطية متراكمة جديدة (ST-CGAN)، والتي تتكون من شبكتين CGAN متراكمتين، كل منها يحتوي على جهاز إنشاء وجهاز تمييز. بصفة خاصة، يتم إدخال صورة تحتوي على ظل إلى الجهاز الأول لإنتاج قناع للكشف عن الظل. ثم يتم دمج هذه الصورة مع القناع المتوقع وتمريرها عبر الجهاز الثاني لإعادة بناء الصورة الخالية من الظل بشكل تتابعي. بالإضافة إلى ذلك، فإن الجهازين التمييزيين المرتبطين بهما من المحتمل أن يُمثلا علاقات مستويات أعلى وخصائص المشهد الشاملة للمنطقة التي تم الكشف عنها والبناء عبر إزالة الظلال، على التوالي. وأكثر أهميةً، بالنسبة لتعلم متعدد المهام، فإن تصميمنا للمبدأ المتراكم يقدم رؤية جديدة تختلف بشكل ملحوظ عن النسخة الأكثر استخدامًا ذات الفروع المتعددة. لتقييم أداء الإطار المقترح لدينا بشكل كامل، قمنا ببناء أول مقاييس كبير الحجم يتضمن 1870 ثلاثية صور (صورة تحتوي على ظل، صورة قناع الظل، وصورة خالية من الظل) ضمن 135 مشهدًا. وقد أظهرت النتائج التجريبية الواسعة باستمرار مزايا ST-CGAN على عدة طرق رائدة حاليًا في مجال البحث في مجموعتي بيانات كبيرتين متاحتين للعامة وفي مجموعة البيانات الجديدة التي أصدرناها حديثًا.