كشف الانتباه الملون RGB-D المُحافظ على التخصص

تمثل الكشف عن الكائنات البارزة (SOD) في الصور الملونة (RGB) والصور العميقة (Depth) اهتمامًا متزايدًا من قبل الباحثين، نظرًا لفعاليتها، وبما أن معلومات العمق أصبحت الآن قابلة للاستشعار بسهولة. تستخدم النماذج الحالية للكشف عن الكائنات البارزة في البيئة المزدوجة (RGB-D) استراتيجيات تجميع مختلفة لاستخلاص تمثيل مشترك من كلا الموداليتين (أي RGB والعمق)، بينما لا تأخذ معظم الطرق بعين الاعتبار بشكل صريح كيفية الحفاظ على الخصائص المميزة لكل موداليّة. في هذه الدراسة، نقترح إطارًا جديدًا يُسمّى SPNet (شبكة الحفاظ على الخصوصية)، والذي يُحسّن أداء الكشف عن الكائنات البارزة من خلال استكشاف المعلومات المشتركة والخصائص المميزة لكل موداليّة (مثل الخصوصية). بشكل محدد، نقترح استخدام شبكة مخصصة لكل موداليّة وشبكة تعلم مشتركة لتكوين خرائط تنبؤ بالبارزة الفردية والمشتركة، على التوالي. ولدمج ميزات متعددة المودالات بشكل فعّال في شبكة التعلم المشتركة، نقدّم وحدة دمج مُعززة عبر المودالات (CIM)، ثم نُمرّر الميزة المدمجة إلى الطبقة التالية لدمج المعلومات عبر المستويات المختلفة. علاوةً على ذلك، ولالتقاط معلومات متعددة المودالات المكملة الغنية لتعزيز أداء الكشف عن الكائنات البارزة، نقترح وحدة تجميع الميزات متعددة المودالات (MFA) لدمج الميزات المميزة لكل موداليّة من كل فكّ شفرة فردي إلى فكّ الشفرة المشتركة. وباستخدام اتصالات التخطّي (skip connection)، يمكن دمج الميزات الهرمية بين طبقات المُشفر (encoder) والفكّ الشفرة (decoder) بشكل كامل. أظهرت التجارب الواسعة أن نموذجنا (SPNet) يتفوّق على الطرق الحديثة المتطورة على ستة معايير شهيرة للكشف عن الكائنات البارزة في البيئة RGB-D، وعلى ثلاث معايير للكشف عن الكائنات المُخفيّة (camouflaged object detection). يُمكن الوصول إلى المشروع بشكل عام عبر الرابط التالي: https://github.com/taozh2017/SPNet.