نهج بايزي لمقاومة الخروج عن النطاق في تصنيف الصور

مشكلة مهمة وغير محلولة في رؤية الحاسوب هي ضمان مقاومة الخوارزميات للتغيرات في مجالات الصور. نعالج هذه المشكلة في السياق الذي يكون فيه لدينا وصول إلى صور من المجالات المستهدفة ولكن دون وجود تسميات (Annotations). مستلهمين من التحديات التي تظهر في معيار OOD-CV، حيث نواجه عوامل إزعاج حقيقية في البيئة (Out-of-Domain, OOD) والاختباء (Occlusion)، نقدم نهجًا بايزيًا جديدًا لمقاومة OOD في تصنيف الكائنات. تُمتد أعمالنا على الشبكات العصبية المركبة (Compositional Neural Networks - CompNets)، التي أُثبتت كفاءتها في التحمل أمام الاختباء، ولكنها تتدهور بشكل كبير عند اختبارها على بيانات خارج المجال (OOD). نستفيد من حقيقة أن CompNets تحتوي على جزء توليدي (Generative Head) معرف على متجهات الميزات الممثلة باستخدام كيرنيلات فون ميس-فيشر (von Mises-Fisher - vMF)، والتي تتوافق تقريبًا مع أجزاء الكائنات، ويمكن تعلّمها دون إشراف. لاحظنا أن بعض كيرنيلات vMF تكون متشابهة بين مجالات مختلفة، بينما تكون أخرى غير متشابهة. وهذا يمكّننا من تعلّم قاموس انتقالي لكيرنيلات vMF تكون في منتصف المسافة بين المجالات المصدرية والمستهدفة، ثم تدريب النموذج التوليدي على هذا القاموس باستخدام التسميات من المجال المصدر، يتبعه تحسين تكراري. يُسمّى هذا النهج "الانتقال التوليدي غير المُشرَّف" (Unsupervised Generative Transition - UGT)، ويعمل بشكل ممتاز في السيناريوهات OOD، حتى في الحالات التي توجد فيها حالات اختباء. تم تقييم UGT على مجموعة متنوعة من معايير OOD، بما في ذلك مجموعة بيانات OOD-CV، وعدد من المجموعات الشهيرة (مثل ImageNet-C [9])، والتشويهات الاصطناعية للصور (بما في ذلك إضافة عوائق تُخفي جزءًا من الصورة)، والنقل من المجال الاصطناعي إلى الحقيقي، وحققت نتائج متميزة في جميع السيناريوهات، متفوقة على الحلول الأفضل حتى الآن (مثل تحسين بنسبة تصل إلى 10% في دقة التصنيف الأول (Top-1 Accuracy) على مجموعة بيانات OOD-CV المُختبَّأة).