الترميز الدلالي لصورة RGB-D القائمة على التباعد باستخدام محول الانتباه القابل للتشويه

الاستشعار والتفكير القائمين على الرؤية ضروريان لفهم المشهد في أي نظام ذاتي. تُستخدم صور RGB والصور العميقة بشكل شائع لالتقاط السمات الشكلية والهندسية للبيئة. يُعد تطوير طرق لفهم هذه البيانات بشكل موثوق أمرًا بالغ الأهمية للتطبيقات الواقعية، حيث لا يمكن تجنب القياسات المزعجة في كثير من الأحيان. في هذه الدراسة، نقدّم إطارًا قائمًا على التشتت (diffusion) لمعالجة مشكلة تقسيم الدلالة في صور RGB-D. علاوةً على ذلك، نُظهر أن استخدام نموذج انتباه مُعدّل (Deformable Attention Transformer) كمُشفّر لاستخراج السمات من الصور العميقة يُمكنه التقاط الخصائص المميزة للمناطق غير الصالحة في القياسات العميقة بشكل فعّال. يُظهر إطارنا التوليدي قدرة أكبر على نمذجة التوزيع الكامن وراء صور RGB-D، ويحقق أداءً متميّزًا في السيناريوهات الصعبة مع وقت تدريب أقل بشكل كبير مقارنةً بالطرق التمييزية. تُشير النتائج التجريبية إلى أن نهجنا يحقق أداءً من الطراز الأول (State-of-the-Art) على كلا مجموعتي البيانات NYUv2 وSUN-RGBD من حيث الأداء العام، وبشكل خاص في أصعب صور البيانات المتوفرة في هاتين المجموعتين. ستكون صفحة المشروع متاحة على الرابط التالي: https://diffusionmms.github.io/