HyperAIHyperAI
منذ 15 أيام

كشف القدرة المحتملة لنموذج Segment Anything Model 2 للتحليل التصنيفي الشامل للصورة بالاعتماد على الألوان والحرارة مع التوجيه اللغوي

Zhao, Jiayi, Teng, Fei, Luo, Kai, Zhao, Guoqiang, Li, Zhiyong, Zheng, Xu, Yang, Kailun
كشف القدرة المحتملة لنموذج Segment Anything Model 2 للتحليل التصنيفي الشامل للصورة بالاعتماد على الألوان والحرارة مع التوجيه اللغوي
الملخص

تعتمد قدرة الأنظمة الروبوتية على التمييز على غنى مجموعة البيانات. وعلى الرغم من أن نموذج Segment Anything Model 2 (SAM2)، الذي تم تدريبه على مجموعات بيانات كبيرة، يُظهر إمكانات تمييز قوية في مهام التمييز، فإن نموذجه التدريبي المُتأصّل يمنعه من أن يكون مناسبًا للمهام التي تعتمد على الصور الملونة والحرارية (RGB-T). ولحل هذه التحديات، نقترح SHIFNet، وهو نموذج مبتكر مُشغّل بـ SAM2، يعتمد على نموذج تفاعل هجين يُحرّك إمكانات SAM2 بمساعدة توجيه لغوي، مما يُمكّن من تمييز فعّال للصورة الملونة والحرارية (RGB-Thermal). يتكون إطارنا من مكوّنين رئيسيين: (1) وحدة التكامل عبر الوسائط المُدركة للدلالات (SACF)، التي توازن ديناميكيًا مساهمة الوسائط المختلفة من خلال تعلّم الترابط الموجه بالنص، مما يُغلب التحيّز الداخلي لـ SAM2 نحو الصور الملونة؛ و(2) مُفكّك التحفيز غير المتجانس (HPD)، الذي يُعزّز المعلومات الدلالية الشاملة من خلال وحدة تعزيز الدلالة، ثم يدمجها مع التضمينات الفئوية لتعزيز التماسك الدلالي بين الوسائط. وبعدد 32.27 مليون معلمة قابلة للتدريب، تُحقّق SHIFNet أداءً متقدّمًا في مهام التمييز على المعايير العامة، حيث تصل إلى 89.8% على PST900 و67.8% على FMB على التوالي. يُسهّل هذا الإطار تكيّف النماذج الكبيرة المُدرّبة مسبقًا مع مهام التمييز RGB-T، مما يُقلّل بشكل فعّال من التكاليف المرتبطة بجمع البيانات، ويُزوّد الأنظمة الروبوتية بقدرات تمييز شاملة. وسيتم إتاحة الشفرة المصدرية للإطار بشكل علني عبر الرابط: https://github.com/iAsakiT3T/SHIFNet.

كشف القدرة المحتملة لنموذج Segment Anything Model 2 للتحليل التصنيفي الشامل للصورة بالاعتماد على الألوان والحرارة مع التوجيه اللغوي | أحدث الأوراق البحثية | HyperAI