متغير التحويل المدمج عبر الأطياف للكشف عن الأجسام متعددة الطيف

يمكن أن توفر أزواج الصور متعددة الطيف معلومات مركبة، مما يجعل تطبيقات كشف الأشياء أكثر ثقة ومتانة في العالم المفتوح. للاستفادة الكاملة من الأطياف المختلفة، نقدم في هذا البحث طريقة بسيطة ومعتبرة للدمج بين الخصائص عبر الأطياف المختلفة، والتي أطلقنا عليها اسم Cross-Modality Fusion Transformer (CFT). على عكس الأعمال السابقة التي تعتمد على شبكات النيورونات التلافيفية (CNNs)، فإن شبكتنا تتعلم الارتباطات طويلة المدى وتدمج المعلومات السياقية العالمية في مرحلة استخراج الخصائص، بفضل استخدامها للمخطط المتغير (transformer scheme). وأهم من ذلك، عن طريق الاستفادة من انتباه الذات في المتغير، يمكن للشبكة أن تقوم بشكل طبيعي بالدمج داخل الطيف وعبر الأطياف المختلفة، وتقضي بشكل فعّال على التفاعلات الكامنة بين مجالات RGB والحرارية (Thermal)، مما يحسن بشكل كبير أداء كشف الأشياء متعددة الطيف. تُظهر التجارب الواسعة والدراسات الاستبعادية على عدة قواعد بيانات أن نهجنا فعال ويحقق أفضل أداء لكشف الأشياء حاليًا. رمز البرمجة والنموذج متاحان على الرابط https://github.com/DocF/multispectral-object-detection.