مُكَافِئُ الأَجْسَامِ المُوَحَّد لِلْمُدَرِّكاتِ المُخْتَلِفَة بِاسْتِنَاذٍ مُحَوَّلاتِ الرُّؤْيَا

تتطلب الأنظمة التقليدية عادةً نماذج مختلفة لمعالجة أنماط مختلفة، مثل نموذج واحد للصور RGB ونموذج آخر للصور العميقة. وقد أظهرت البحوث الحديثة أنه يمكن تكييف نموذج واحد لأنماط أخرى باستخدام التعلم النقل بين الأنماط (cross-modality transfer learning). في هذا البحث، نوسع هذه الطريقة من خلال الجمع بين التعلم النقل بين الأنماط والتعلم النقل داخل الأنماط (inter-modality transfer learning) مع محول الرؤية (vision transformer) لتطوير كاشف موحد يحقق أداءً متفوقًا عبر أنماط متنوعة. يتوقع بحثنا سيناريو تطبيقيًا في مجال الروبوتات، حيث يتمكن النظام الموحد من التبديل السلس بين كاميرات RGB وأجهزة الاستشعار العميقة في ظروف الإضاءة المختلفة.من المهم الإشارة إلى أن النظام لا يحتاج إلى تحديثات في بنية النموذج أو وزنه لتحقيق هذا التبديل السلس. بشكل خاص، يستخدم النظام جهاز الاستشعار العميق في ظروف الإضاءة المنخفضة (الليل)، وكلاً من كاميرا RGB وجهاز الاستشعار العميق أو كاميرا RGB فقط في البيئات ذات الإضاءة الجيدة. قمنا بتقييم نموذجنا الموحد على مجموعة بيانات SUN RGB-D، وأظهرنا أنه يحقق أداءً مشابهًا أو أفضل من حيث mAP50 مقارنة بالطرق المتقدمة الحالية في فئة SUNRGBD16، وكذلك أداءً مماثلًا في وضع السحابة النقطية فقط. كما قدمنا طريقة جديدة لمزج الأنماط الداخلية تمكن نموذجنا من تحقيق نتائج أفضل بكثير من الطرق السابقة. نوفر أيضًا رمزنا البرمجي، بما في ذلك سجلات التدريب والاستدلال ونقاط التحقق من النموذج، لتسهيل إعادة إنتاج النتائج والأبحاث المستقبلية.\url{https://github.com/liketheflower/UODDM}