$\mathbf{C}^2$Former: محول مُعدّل ومتكامل للكشف عن الكائنات في الصور الملونة والأشعة تحت الحمراء

الكشف عن الكائنات في الصور المرئية (RGB) والصور تحت الحمراء (IR)، كحلٍ ناشئ يُسهّل الكشف الموثوق في التطبيقات التي تعمل على مدار الساعة، لاقت اهتمامًا واسعًا في السنوات الأخيرة. وبفضل استخدام الصور تحت الحمراء، أصبحت نماذج الكشف عن الكائنات أكثر موثوقية وقوة في التطبيقات العملية من خلال دمج المعلومات من نمطَي RGB وIR. ومع ذلك، ما زالت الطرق الحالية تعاني من مشكلات في عدم التوافق بين النماذج (modality miscalibration) وسوء دمج المعلومات (fusion imprecision). وبما أن نموذج الترانسفورمر يتمتع بقدرات قوية في نمذجة الارتباطات الزوجية بين السمات المختلفة، نقترح في هذه الورقة نموذجًا جديدًا يُسمى "الترانسفورمر المُعدّل والمتناقض" (C²Former) لمعالجة هاتين المشكلتين معًا في آنٍ واحد. في نموذج C²Former، نصمم وحدة تسمى "الانتباه المتبادل بين النماذج" (Inter-modality Cross-Attention, ICA) لاستخلاص سمات مُعدّلة ومُكملة من خلال تعلّم العلاقة بين الانتباه المتبادل بين نمطي RGB وIR. ولتقليل التكلفة الحسابية الناتجة عن حساب الانتباه العالمي في وحدة ICA، نُدخل وحدة تُسمى "الاستخلاص المُتكيف للسمات" (Adaptive Feature Sampling, AFS) لتقليل أبعاد خرائط السمات. وبما أن C²Former يعمل في مجال السمات، فإنه يمكن دمجه في نماذج كشف كائنات RGB-IR الحالية من خلال شبكة الخلفية (backbone network). وهكذا، تم بناء نموذجين: واحدٍ للكشف في مرحلة واحدة، وآخر في مرحلتين، كلاهما يدمجان C²Former، بهدف تقييم كفاءته وتنوعه. وبناءً على تجارب واسعة على مجموعتي بيانات DroneVehicle وKAIST RGB-IR، نؤكد أن طريقة العمل لدينا تستغل بالكامل المعلومات المُكملة بين RGB وIR، وتحقق نتائج كشف موثوقة. يمكن الاطلاع على الكود المصدر من خلال الرابط التالي: https://github.com/yuanmaoxun/Calibrated-and-Complementary-Transformer-for-RGB-Infrared-Object-Detection.git.