التحليل غير المراقب للصورة من خلال تحسين المعلومات المتبادلة والتنظيم العدواني

التفكيك الدلالي يُعد إحدى المهام الأساسية، لكنها ضرورية، لفهم المشهد بالنسبة لوكيل ذاتي التحكم. وقد حققت التطورات الحديثة في التعلم الآلي المُراقب والشبكات العصبية العميقة نجاحًا كبيرًا في تحسين أداء أحدث التقنيات الخاصة بهذه المهمة. ومع ذلك، فإن أداءها المتميز يعتمد بشكل كبير على توفر مجموعة بيانات مُANNOTATED كبيرة الحجم. في هذا البحث، نقترح طريقة جديدة تمامًا للتفكيك الدلالي غير المُراقب، تُعرف بـ "التفكيك القائم على تكبير المعلومات والتنظيم العدواني" (InMARS). مستوحاة من عملية إدراك الإنسان التي تُفكّك المشهد إلى مجموعات إدراكية، بدلاً من تحليل كل بكسل على حدة، يقسم النهج المقترح الصورة المدخلة أولًا إلى مناطق ذات معنى (المعروفة أيضًا بـ "البكسلات الفائقة"). ثم يستخدم أسلوب تكبير المعلومات المتبادلة، متبوعًا باستراتيجية تدريب عدواني، لتوحيد هذه المناطق في فئات ذات معنى دلاليًا. ولتخصيص خطة تدريب عدواني تناسب هذه المشكلة، ندمج ضوضاء بكسل عدوية مع اضطرابات مكانية لفرض التماثل الضوئي والهندسي على الشبكة العصبية العميقة. تُظهر تجاربنا أن طريقةنا تحقق أداءً يُعد الأفضل في مجالها على مجموعتي بيانات شائعتين لتفكيك دلالي غير مُراقب، وهما COCO-Stuff وPotsdam.