HyperAIHyperAI
منذ 17 أيام

ميتافورمر: إطار ميتا موحد للتعرف الدقيق

Qishuai Diao, Yi Jiang, Bin Wen, Jia Sun, Zehuan Yuan
ميتافورمر: إطار ميتا موحد للتعرف الدقيق
الملخص

تصنيف الرؤية الدقيقة (Fine-Grained Visual Classification - FGVC) هو مهمة تتطلب التعرف على الكائنات التي تنتمي إلى فئات فرعية متعددة ضمن فئة رئيسية واحدة. تُصمم الأساليب الحديثة المتطورة عادةً أنظمة تعلم معقدة للتعامل مع هذه المهمة. ومع ذلك، غالبًا ما تكون المعلومات البصرية وحدها غير كافية لتمييز الفئات البصرية الدقيقة بدقة. في الوقت الحاضر، تظهر عادةً معلومات مرجعية (مثل المُعطيات المكانية-الزمنية، والخصائص، والوصف النصي) جنبًا إلى جنب مع الصور. وهذا يحفزنا على طرح السؤال التالي: هل من الممكن استخدام إطار عمل موحد وبسيط لاستخدام أنواع متعددة من المعلومات المرجعية لمساعدة التصنيف الدقيق؟ للإجابة على هذا السؤال، نستكشف إطار عمل موحد وقوي يُسمى "MetaFormer" لتصنيف الرؤية الدقيقة. في التطبيق العملي، يقدم MetaFormer منهجية بسيطة وفعالة لمعالجة التعلم المشترك بين الرؤية والمعلومات المرجعية المختلفة. علاوةً على ذلك، يُعد MetaFormer أيضًا قاعدة قوية لـ FGVC دون الحاجة إلى تعقيدات إضافية. أظهرت التجارب الواسعة أن MetaFormer يمكنه استخدام المعلومات المرجعية المتنوعة بشكل فعّال لتحسين أداء التعرف الدقيق. وفي مقارنة عادلة، يمكن لـ MetaFormer تفوق الأساليب المتطورة الحالية التي تعتمد فقط على المعلومات البصرية على مجموعتي بيانات iNaturalist2017 وiNaturalist2018. وبالإضافة إلى المعلومات المرجعية، يمكن لـ MetaFormer تجاوز الأساليب المتطورة الحالية بنسبة 5.9% و5.3% على التوالي. كما تمكّن MetaFormer من تحقيق دقة قدرها 92.3% و92.7% على مجموعتي بيانات CUB-200-2011 وNABirds، وهي أداء يتفوق بشكل كبير على أفضل الأساليب الحالية. تم إصدار الشفرة المصدرية والنموذج المُدرّب مسبقًا على الرابط: https://github.com/dqshuai/MetaFormer.

ميتافورمر: إطار ميتا موحد للتعرف الدقيق | أحدث الأوراق البحثية | HyperAI