HyperAIHyperAI
منذ 2 أشهر

SIM-Trans: نموذج تحويل المعلومات الهيكلية لتصنيف الصور بدقة عالية

Sun, Hongbo ; He, Xiangteng ; Peng, Yuxin
SIM-Trans: نموذج تحويل المعلومات الهيكلية لتصنيف الصور بدقة عالية
الملخص

التصنيف البصري الدقيق (FGVC) يهدف إلى التعرف على الأشياء من فئات فرعية متشابهة، وهو أمر صعب وعملي لاحتياجات التعرف التلقائي الدقيق للإنسان. تركز معظم الطرق المستخدمة في FGVC على بحث آليات الانتباه لاستخراج المناطق المميزة بينما تتجاهل ارتباطاتها وتراكيب الكائن الكلية، وهي عناصر أساسية لقدرة النموذج على تحديد المعلومات المميزة وفهمها. لمعالجة هذه القيود، نقترح نموذج ترانسفورمر لتمثيل المعلومات الهيكلية (SIM-Trans) لدمج معلومات هيكل الكائن في الترانسفورمر بهدف تعزيز تعلم التمثيل المميز ليتضمن كلًا من معلومات الشكل ومعلومات البنية.وبشكل خاص، نقوم بتشفير الصورة إلى سلسلة من رموز اللوحة (patch tokens) وبناء إطار قوي للترانسفورمر البصري مع وحدتين مصممتين بدقة: (i) وحدة تعلم المعلومات الهيكلية (SIL)، التي تقترح استخراج العلاقة السياقية المكانية للوائح الهامة داخل نطاق الكائن بمساعدة أوزان انتباه الترانسفورمر الذاتي، والتي يتم حقنها في النموذج لاستيراد معلومات البنية؛ (ii) وحدة تعزيز الميزات متعددة المستويات (MFB)، التي تم تقديمها للاستفادة من تكامل الميزات متعددة المستويات والتعلم التبايني بين الفئات لتعزيز قوة الميزات للتعرف الدقيق.الوحدتان المقترحتان خفيفتا الوزن ويمكن دمجهما في أي شبكة ترانسفورمر والتدريب عليهما بنهاية واحدة بسهولة، حيث تعتمدان فقط على أوزان الانتباه المرافقة للترانسفورمر البصري نفسه. أثبتت التجارب الواسعة والتحليلات أن SIM-Trans المقترح يحقق أفضل الأداء على مقاييس تصنيف الصور البصري الدقيق. يمكن الحصول على الرمز البرمجي من الرابط التالي: https://github.com/PKU-ICST-MIPL/SIM-Trans_ACMMM2022.

SIM-Trans: نموذج تحويل المعلومات الهيكلية لتصنيف الصور بدقة عالية | أحدث الأوراق البحثية | HyperAI