التعلم المزدوج المضاد المُوجَّه بالهدف وBenchmark متعدد السيناريوهات متعدد الوسائط لدمج الأشعة تحت الحمراء والمرئية للكشف عن الكائنات

يتناول هذا الدراسة مشكلة دمج الصور تحت الحمراء والصور المرئية التي تظهر بشكل مختلف في مهام كشف الكائنات. وتحقيقًا لإنتاج صورة ذات جودة بصرية عالية، اعتمد النهج السابق على اكتشاف العناصر المشتركة الكامنة وراء كلا الموداليتين، ثم دمجها في الفضاء المشترك إما من خلال تحسين تكراري أو باستخدام الشبكات العميقة. إلا أن هذه النهج تتجاهل أن الفروقات بين الموداليتين، والتي تعني معلومات مكملة، تُعدّ أمرًا بالغ الأهمية لكل من عملية الدمج والمهام اللاحقة للكشف. وتقترح هذه الورقة صيغة تحسين ذات مستويين لمشكلة الدمج والكشف معًا، ثم تُنفّذ عبر شبكة تُسمى التعلم المزدوج المضاد الموجهة للهدف (TarDAL) لعملية الدمج، بالإضافة إلى شبكة كشف شائعة الاستخدام. وتسعى الشبكة الخاصة بالدمج، التي تتضمن مُولِّدًا واحدًا ومحرّكاتين مزدوجتين، إلى اكتشاف العناصر المشتركة مع التعلم من الفروقات، مما يحافظ على المعلومات البنائية للكائنات من الصور تحت الحمراء، والتفاصيل النسيجية من الصور المرئية. علاوةً على ذلك، قمنا ببناء نظام تصوير مزامن مزود بحساسات تحت حمراء وحسّاسات بصرية مُعدّلة بدقة، وجمعنا حاليًا أضخم معيار مُتعدد السيناريوهات يغطي نطاقًا واسعًا من الظروف. وأظهرت التجارب الواسعة على عدة مجموعات بيانات عامة ونظامنا المعياري أن طريقة العمل تُنتج دمجًا بصريًا جذابًا، وتحقيقًا لقيمة أعلى في مقياس دقة الكشف (mAP) مقارنةً بالطرق الرائدة حاليًا.