HyperAIHyperAI
منذ 11 أيام

التعلم المزدوج المضاد المُوجَّه بالهدف وBenchmark متعدد السيناريوهات متعدد الوسائط لدمج الأشعة تحت الحمراء والمرئية للكشف عن الكائنات

Jinyuan Liu, Xin Fan, Zhanbo Huang, Guanyao Wu, Risheng Liu, Wei Zhong, Zhongxuan Luo
التعلم المزدوج المضاد المُوجَّه بالهدف وBenchmark متعدد السيناريوهات متعدد الوسائط لدمج الأشعة تحت الحمراء والمرئية للكشف عن الكائنات
الملخص

يتناول هذا الدراسة مشكلة دمج الصور تحت الحمراء والصور المرئية التي تظهر بشكل مختلف في مهام كشف الكائنات. وتحقيقًا لإنتاج صورة ذات جودة بصرية عالية، اعتمد النهج السابق على اكتشاف العناصر المشتركة الكامنة وراء كلا الموداليتين، ثم دمجها في الفضاء المشترك إما من خلال تحسين تكراري أو باستخدام الشبكات العميقة. إلا أن هذه النهج تتجاهل أن الفروقات بين الموداليتين، والتي تعني معلومات مكملة، تُعدّ أمرًا بالغ الأهمية لكل من عملية الدمج والمهام اللاحقة للكشف. وتقترح هذه الورقة صيغة تحسين ذات مستويين لمشكلة الدمج والكشف معًا، ثم تُنفّذ عبر شبكة تُسمى التعلم المزدوج المضاد الموجهة للهدف (TarDAL) لعملية الدمج، بالإضافة إلى شبكة كشف شائعة الاستخدام. وتسعى الشبكة الخاصة بالدمج، التي تتضمن مُولِّدًا واحدًا ومحرّكاتين مزدوجتين، إلى اكتشاف العناصر المشتركة مع التعلم من الفروقات، مما يحافظ على المعلومات البنائية للكائنات من الصور تحت الحمراء، والتفاصيل النسيجية من الصور المرئية. علاوةً على ذلك، قمنا ببناء نظام تصوير مزامن مزود بحساسات تحت حمراء وحسّاسات بصرية مُعدّلة بدقة، وجمعنا حاليًا أضخم معيار مُتعدد السيناريوهات يغطي نطاقًا واسعًا من الظروف. وأظهرت التجارب الواسعة على عدة مجموعات بيانات عامة ونظامنا المعياري أن طريقة العمل تُنتج دمجًا بصريًا جذابًا، وتحقيقًا لقيمة أعلى في مقياس دقة الكشف (mAP) مقارنةً بالطرق الرائدة حاليًا.

التعلم المزدوج المضاد المُوجَّه بالهدف وBenchmark متعدد السيناريوهات متعدد الوسائط لدمج الأشعة تحت الحمراء والمرئية للكشف عن الكائنات | أحدث الأوراق البحثية | HyperAI