HyperAIHyperAI
منذ 2 أشهر

HAPNet: نحو تحليل مشهد متفوق باستخدام التجميع الهجين والغير متماثل والتقدمي للخصائص المتنوعة بين الأطياف البصرية والحرارية

Jiahang Li; Peng Yun; Qijun Chen; Rui Fan
HAPNet: نحو تحليل مشهد متفوق باستخدام التجميع الهجين والغير متماثل والتقدمي للخصائص المتنوعة بين الأطياف البصرية والحرارية
الملخص

شبكات دمج البيانات أظهرت وعدًا كبيرًا في تحليل المشاهد RGB-حرارية. ومع ذلك، فإن معظم الدراسات الحالية اعتمدت على مُشفِّرات ثنائية متماثلة لاستخراج الميزات ودمجها من أنماط مختلفة، مع عدم إعطاء اهتمام كافٍ للاختلافات الجوهرية بين أنماط RGB والحرارية. لقد أثبت التقدم الأخير في نماذج الأساس البصري (VFMs) التي تم تدريبها باستخدام الإشراف الذاتي على كميات ضخمة من البيانات غير المصنفة قدرتها على استخراج ميزات شاملة ومفيدة. ومع ذلك، لم يتم الاستفادة الكاملة من هذا الإمكان بعد في المجال. في هذه الدراسة، نخطو خطوة نحو هذا المجال البحثي الجديد من خلال استكشاف استراتيجية قابلة للتطبيق للاستفادة الكاملة من ميزات VFM في تحليل المشاهد RGB-حرارية. تحديدًا، نغوص بشكل أعمق في الخصائص الفريدة لأنماط RGB والحرارية، مما يتيح لنا تصميم مُشفِّر هجين غير متماثل يدمج بين VFM وشبكة عصبية تقنية التلافيف (CNN). يسمح هذا التصميم باستخراج أكثر فعالية للميزات المكملة المختلفة، والتي يتم دمجها بطريقة ثنائية تدريجية بعدها. بالإضافة إلى ذلك، نقدم مهمة مساعدة لتعزيز الدلالات المحلية للميزات المدمجة بشكل أكبر، مما يحسن الأداء الشامل لتحليل المشاهد RGB-حرارية. يظهر النموذج المقترح HAPNet، الذي يحتوي على جميع هذه المكونات، أداءً أفضل بكثير مقارنة بشبكات تحليل المشاهد RGB-حرارية الأكثر تقدمًا حاليًا، حيث حقق أعلى الرتب في ثلاثة من أشهر قواعد بيانات عامة لتحليل المشاهد RGB-حرارية المستخدمة على نطاق واسع. نعتقد أن هذا النموذج الجديد قد فتح فرصًا جديدة للتطورات المستقبلية في أساليب دمج البيانات لتحليل المشاهد.

HAPNet: نحو تحليل مشهد متفوق باستخدام التجميع الهجين والغير متماثل والتقدمي للخصائص المتنوعة بين الأطياف البصرية والحرارية | أحدث الأوراق البحثية | HyperAI