Pix2Next: الاستفادة من نماذج الأساس البصري لترجمة الصور من RGB إلى NIR

يقترح هذا البحث إطارًا جديدًا للترجمة من الصورة إلى الصورة يُسمى Pix2Next، مصممًا لمواجهة التحدي المتمثل في إنتاج صور بالأشعة تحت الحمراء القريبة (NIR) ذات جودة عالية من مدخلات RGB. تستخدم طريقتنا نموذج رؤية أساسي حديث (VFM) ضمن هندسة مشفّر-منشّط (Encoder-Decoder)، مع دمج آليات الانتباه المتقاطع لتعزيز تكامل الخصائص. يلتقط هذا التصميم تمثيلات عالمية مفصلة ويحافظ على الخصائص الطيفية الأساسية، معاملًا عملية الترجمة من RGB إلى NIR كمشكلة أكثر تعقيدًا من مجرد نقل بين المجالات. يعمل مميز PatchGAN متعدد المقاييس على ضمان إنتاج صور واقعية بمستويات مختلفة من التفاصيل، بينما تربط الدوال الخسارة المصممة بعناية فهم السياق العالمي مع الحفاظ على الخصائص المحلية. أجرينا تجارب على مجموعة بيانات RANUS لإظهار مزايا Pix2Next في المؤشرات الكمية والجودة البصرية، حيث تم تحسين مؤشر FID بنسبة 34.81% مقارنة بالطرق الموجودة حاليًا. بالإضافة إلى ذلك، نظهر الفائدة العملية لـ Pix2Next من خلال تحسين الأداء في مهمة اكتشاف الأجسام باستخدام البيانات المولدة بالأشعة تحت الحمراء القريبة لتوسيع نطاق قواعد البيانات الحقيقية المحدودة بالأشعة تحت الحمراء القريبة. يمكّن النهج المقترح من زيادة حجم قواعد البيانات بالأشعة تحت الحمراء القريبة دون الحاجة إلى جهود إضافية للحصول على البيانات أو تصنيفها، مما قد يسرّع التقدم في التطبيقات المرتبطة برؤية الكمبيوتر المستندة إلى الأشعة تحت الحمراء القريبة.