الترجمة، والتوسيع، والدوران: المحاذاة عبر الوسائط تلتقي بالكشف عن المركبات باستخدام الصور الملونة والأشعة تحت الحمراء

تمثل دمج البيانات متعددة الطيف في كشف الكائنات، وخاصة الصور المرئية والأشعة تحت الحمراء، محور اهتمام كبير في السنوات الأخيرة. نظرًا لأن الصور المرئية (RGB) والأشعة تحت الحمراء (IR) تقدم معلومات مكملة قادرة على التعامل مع التغيرات في الإضاءة، تُستخدم الصور المزدوجة في العديد من المجالات، مثل كشف المشاة متعدد الطيف، وحساب الحشود باستخدام الصور RGB-IR، وكشف الكائنات البارزة باستخدام الصور RGB-IR. بالمقارنة مع الصور الطبيعية RGB-IR، نلاحظ أن كشف الكائنات في الصور الجوية RGB-IR يعاني من مشكلة التداخل الضعيف بين النماذج (cross-modal weakly misalignment)، والتي تتجلى في انحرافات في الموضع والحجم والزاوية لنفس الكائن بين الصورتين. في هذه الورقة، نعالج بشكل رئيسي تحدي التداخل الضعيف بين النماذج في الصور الجوية RGB-IR. وبشكل محدد، نقدم تحليلًا وشرحًا لأسباب هذه المشكلة أولاً، ثم نقترح وحدة تسمى "محاذاة النقل والمقاس والدوران" (Translation-Scale-Rotation Alignment - TSRA)، والتي تعالج هذه المشكلة من خلال معايرة خرائط الميزات الناتجة عن كلا الطيفين. وتُنبِّه الوحدة إلى الانحراف بين الكائنات في النمطين من خلال عملية محاذاة، وتُوظِّف استراتيجية اختيار النمط (Modality-Selection - MS) لتحسين أداء المحاذاة. وأخيرًا، تم بناء كاشف ثنائي التدفق لمحاذاة الميزات (Two-Stream Feature Alignment Detector - TSFADet) بناءً على وحدة TSRA، لتطبيق كشف الكائنات في الصور الجوية باستخدام الطيفين RGB-IR. وتم التحقق من فعالية طريقة البحث من خلال تجارب شاملة على مجموعة بيانات DroneVehicle العامة، حيث أظهرت النتائج أن الطريقة تقلل من تأثير التداخل بين النماذج، وتحقق نتائج كشف موثوقة.