نموذج تحويل الصور المرئية إلى الأشعة تحت الحمراء الخفيف والفعال: محول متعدد الطيف الضمني

في مجال رؤية الحاسوب، تُظهر الصور الملتقطة بالضوء المرئي تباينًا منخفضًا في الظروف ذات الإضاءة الضعيفة، مما يشكل تحديًا كبيرًا. وعلى الرغم من أن الصور الحرارية توفر حلًا محتملًا، إلا أن استخدامها يترافق مع تكاليف عالية وقيود عملية. وقد ساهمت التطورات الحديثة في التعلم العميق، وبخاصة تطبيق شبكات التوليد المتنافسة (GANs)، في تمكين تحويل الصور المرئية إلى صور حرارية. ومع ذلك، غالبًا ما تواجه هذه الأساليب مراحل تدريب غير مستقرة، وقد تُنتج نتائج غير مثالية. ولحل هذه المشكلات، نقترح نموذجًا جديدًا قائمًا على المُحوّل (Transformer) ويعمل بشكل منتهي إلى منتهى (end-to-end)، يحول الصور المرئية إلى صور حرارية عالية الولادة (high-fidelity) بكفاءة. في البداية، تعمل وحدة خريطة النسيج (Texture Mapping Module) وملحق إدراك اللون (Color Perception Adapter) معًا على استخراج ميزات النسيج واللون من الصورة المرئية. ثم تُدمج هذه الميزات بواسطة وحدة التجميع الديناميكي (Dynamic Fusion Aggregation Module). وأخيرًا، يتم تحسين التحويل إلى صورة حرارية من خلال التفاعل المتكامل بين ملحق إدراك اللون وآلية الانتباه المحسّنة (Enhanced Perception Attention). وقد أكدت تجارب المقارنة الشاملة أن النموذج المقترح يتفوق على الأساليب الحالية، ويُنتج صورًا حرارية ذات جودة متميزة بشكل ملحوظ من حيث الجودة النوعية والكمية. علاوة على ذلك، يتيح النموذج المقترح تطبيقات لاحقة أكثر فعالية للصور الحرارية مقارنة بالأساليب الأخرى.