استخراج المعاني الصورية عبر الصور للفصل الدلالي المُراقب ضعيفًا

يدرس هذا البحث مشكلة تعلم التجزئة الدلالية من خلال الإشراف على مستوى الصورة فقط. تُعتمد الحلول الشائعة حاليًا على خرائط تحديد المواقع الكائنية من التصنيفات كإشارات إشرافية، ولكنها تواجه صعوبة في جعل خرائط التحديد الكائنية تُمثّل محتوى الكائنات بشكل أكثر شمولاً. بخلاف الجهود السابقة التي ركّزت بشكل رئيسي على المعلومات داخل الصورة الواحدة، نتناول هنا القيمة التي تمثلها العلاقات الدلالية بين الصور المختلفة لاستخراج أنماط الكائنات بشكل شامل. لتحقيق ذلك، ندمج نوعين من الانتباه التعاوني العصبي في المصنّف، بهدف التقاط التشابهات والاختلافات الدلالية بين الصور بشكل مكمل. وبشكل خاص، عند معالجة زوج من الصور التدريبية، يُجبر أحد أنواع الانتباه التعاوني المصنّف على التعرف على المعاني المشتركة المستمدة من الكائنات المُنتبَهة تعاونياً، بينما يُوجّه الآخر، الذي يُسمّى الانتباه التعاوني التبايني، المصنّف على تحديد المعاني غير المشتركة المستمدة من الكائنات الأخرى غير المشتركة. وهذا يساعد المصنّف على اكتشاف أنماط كائنية أكثر وتحقيق تثبيت أدق للمعاني في مناطق الصورة. بالإضافة إلى تعزيز تعلم أنماط الكائنات، يمكن للانتباه التعاوني الاستفادة من السياق المستمد من صور ذات صلة أخرى لتحسين استنتاج خرائط التحديد الكائنية، وبالتالي المساهمة في تحسين تعلم التجزئة الدلالية في النهاية. وبشكل أكثر جوهرية، يقدّم خوارزميتنا إطارًا موحدًا يتعامل بكفاءة مع مختلف بيئات التعلم التجزئة الدلالية ذات الإشراف الضعيف (WSSS)، أي تعلم WSSS باستخدام: (1) إشراف دقيق على مستوى الصورة فقط، (2) بيانات إضافية بسيطة ومتعددة التسميات، و(3) بيانات ويب إضافية غير دقيقة. وقد حقق هذا النهج أداءً جديدًا على مستوى الحد الأقصى في جميع هذه البيئات، مما يُظهر فعاليته وقابلية تعميمه بشكل جيد. علاوةً على ذلك، حصلت منهجيتنا على المرتبة الأولى في مسار التجزئة الدلالية ذات الإشراف الضعيف ضمن مسابقة CVPR2020 "التعلم من بيانات غير مثالية".