MiPa: الكشف عن الأشياء باستخدام تقنية الرقع المختلطة في الطيف الحاراري والمرئي مع عدم الاعتبار للنمط

في السيناريوهات الحقيقية، يمكن أن تحسّن استخدام العديد من الوسائط مثل المرئي (RGB) والأشعة تحت الحمراء (IR) بشكل كبير أداء المهام التنبؤية مثل اكتشاف الأشياء (OD). يعتبر التعلم متعدد الوسائط طريقة شائعة للاستفادة من هذه الوسائط، حيث يتم استخدام مُشفِّرات متعددة خاصة بالوسائط ومودول دمج لتحسين الأداء. في هذا البحث، نتناول طريقة مختلفة لاستخدام وسائط RGB و IR، حيث يتم ملاحظة وسيلة واحدة فقط أو الأخرى بواسطة مُشفِّر رؤية مشترك واحد. يتطلب هذا الإعداد الواقع أقل بصمة ذاكرة ويكون أكثر ملاءمة للتطبيقات مثل القيادة الذاتية والمراقبة، التي تعتمد عادةً على بيانات RGB و IR. ومع ذلك، عند تعلم مُشفِّر واحد على وسائط متعددة، قد تهيمن وسيلة واحدة على الأخرى، مما يؤدي إلى نتائج غير متساوية في التعرف. يدرس هذا العمل كيفية الاستفادة بكفاءة من وسائط RGB و IR لتدريب مُشفِّر رؤية OD مشترك يستند إلى محولات (Transformers)، مع مواجهة آثار عدم توازن الوسائط. لهذا الغرض، نقدم تقنية تدريب جديدة لإضافة الرقع (Mix Patches (MiPa)) من الوسيلتين معًا، بالاشتراك مع مودول غير مرتبط بالوسائط على مستوى البقع، لتعلم تمثيل مشترك لكلا الوسيلتين. تظهر تجاربنا أن MiPa يمكنه تعلم تمثيل يصل إلى نتائج تنافسية على مقاييس الاختبار التقليدية للـ RGB/IR بينما يحتاج فقط إلى وسيلة واحدة أثناء الاستدلال. شفرتنا متاحة على الرابط التالي: https://github.com/heitorrapela/MiPa.