Command Palette
Search for a command to run...
UniRGB-IR: إطار موحد للمهام الدلالية المرئية-الحرارية من خلال التكييف المُعدّل
UniRGB-IR: إطار موحد للمهام الدلالية المرئية-الحرارية من خلال التكييف المُعدّل
Maoxun Yuan Bo Cui Tianyi Zhao Jiayi Wang Shan Fu Xue Yang Xingxing Wei
الملخص
أصبح التحليل الدلالي للصور المرئية (RGB) والصور تحت الحمراء (IR) محط اهتمام كبير نظرًا لدقته العالية وقوته في ظروف صعبة مثل الإضاءة المنخفضة والأحوال الجوية السيئة. ومع ذلك، نظرًا لعدم توفر نماذج أساسية مُدرّبة مسبقًا على مجموعات بيانات ضخمة من الصور تحت الحمراء، تميل الطرق الحالية إلى تصميم هياكل مخصصة لكل مهمة، ثم تدريبها بشكل مباشر باستخدام نماذج أساسية مُدرّبة مسبقًا على مجموعات بيانات تتعلق بالارتباط الدلالي بين الصور RGB وIR، مما يؤدي إلى قدرة توسعة ضعيفة وتمييز محدود. وللتغلب على هذه القيود، نقترح إطارًا قابلاً للتوسع والكفاءة يُدعى UniRGB-IR، المصمم لمهام التحليل الدلالي بين الصور RGB وIR، والذي يُقدّم آلية مُعدّلة جديدة لدمج ميزات متعددة الوسائط الغنية بشكل فعّال في النماذج الأساسية المُدرّبة مسبقًا على الصور RGB. يتكون إطارنا من ثلاث مكونات رئيسية: نموذج أساسي من نوع محول الرؤية (Vision Transformer - ViT)، ووحدة تجميع الميزات متعددة الوسائط (Multi-modal Feature Pool - MFP)، ووحدة مُحقِّق الميزات الإضافية (Supplementary Feature Injector - SFI). تعمل وحدتا MFP وSFI معًا كمُعدّل (adapter) لتعزيز ميزات ViT بمواصفات سياقية متعددة المقياس بشكل فعّال. أثناء عملية التدريب، نجمّد النموذج الأساسي بالكامل للحفاظ على المعرفة السابقة، ونُحسّن فقط وحدتي MFP وSFI. علاوةً على ذلك، لتأكيد فعالية إطارنا، استخدمنا ViT-Base كنموذج أساسي مُدرّب مسبقًا لإجراء تجارب واسعة النطاق. أظهرت النتائج التجريبية على مهام مختلفة للتحليل الدلالي بين الصور RGB وIR أن طريقةنا تحقق أداءً يُصنف ضمن أفضل النماذج الحالية. يمكن الوصول إلى الكود المصدري والنتائج عبر الرابط التالي: https://github.com/PoTsui99/UniRGB-IR.git.