الكشف عن البارزية في الصور ثنائية الأبعاد والعميقة المستوحى من عدم اليقين

نقترح الإطار العشوائي الأول الذي يستخدم عدم اليقين للكشف عن الأهمية في الصور RGB-D من خلال التعلم من عملية تسمية البيانات. تتعامل النماذج الحالية للكشف عن الأهمية في الصور RGB-D مع هذه المهمة كمشكلة تقدير نقطة من خلال التنبؤ بخريطة واحدة للأهمية تتبع مسار تعلم حتمي. نعتقد أن الحل الحتمي هو نسبيًا غير محدد بشكل جيد. مستوحىً من عملية تسمية بيانات الأهمية، نقترح هندسة إنتاجية لتحقيق الكشف عن الأهمية في الصور RGB-D بطريقة احتمالية، والتي تستفيد من متغير خفي لنمذجة التباينات في التسمية. يتضمن إطارنا عملنا نموذجين رئيسيين: 1) نموذج الجيل، الذي يربط بين الصورة المدخلة والمتغير الخفي للتنبؤ بالأهمية بطريقة عشوائية، و2) نموذج الاستدلال، الذي يقوم بتحديث المتغير الخفي تدريجيًا من خلال أخذ عينات منه من التوزيع اللاحق الحقيقي أو التقريبي. يعتبر نموذج الجيل شبكة أهمية ذات مُشفر ومُفكك (Encoder-Decoder). لاستدلال المتغير الخفي، نقدم حلين مختلفتين: i) ماكينة الترميز-التفكيك المتغيرة الشرطية (Conditional Variational Auto-encoder) مع مشفر إضافي لتقريب التوزيع اللاحق للمتغير الخفي؛ وii) تقنية البث العكسي البديل (Alternating Back-Propagation)، التي تقوم مباشرة بأخذ عينات المتغير الخفي من التوزيع اللاحق الحقيقي. تظهر النتائج النوعية والكمية على ستة مجموعات بيانات مرجعية صعبة للصور RGB-D أداءً فائقًا لنهجنا في تعلم توزيع خرائط الأهمية. يتم توفير الشفرة المصدر بشكل عام عبر صفحة مشروعنا: https://github.com/JingZhang617/UCNet.