هل هذه الطيور متشابهة: تعلم الشبكات الفرعية لتمثيلات دقيقة
{Ignazio Gallo Nicola Landro Moreno Caraffini Alessandro Calefati Shah Nawaz}

الملخص
التصنيف الدقيق للصور هو مهمة صعبة نظرًا لوجود توزيع هرمي من النوع الخشن إلى الدقيق في مجموعة البيانات. عادةً ما تُستخدم الأجزاء لتمييز الكائنات المختلفة في مجموعات البيانات الدقيقة، لكن ليس كل جزء مفيدًا أو ضروريًا. في السنوات الأخيرة، تم استخدام الوصف باللغة الطبيعية للحصول على معلومات حول الأجزاء التمييزية للكائن. تُركّز هذه الورقة على استخدام الوصف باللغة الطبيعية وتقترح استراتيجية لتعلم التمثيل المشترك بين الوصف باللغة الطبيعية والصور باستخدام شبكة ذات فرعين ومتعددة الطبقات، بهدف تحسين مهمة التصنيف الدقيق للصور. أظهرت التجارب الواسعة أن منهجنا يحقق تحسينات كبيرة في الدقة لمهام التصنيف الدقيق للصور. علاوةً على ذلك، حقق منهجنا نتائج جديدة في مستوى الحالة الحالية (state-of-the-art) على مجموعة بيانات CUB-200-2011.
المعايير القياسية
| معيار قياسي | المنهجية | المقاييس |
|---|---|---|
| fine-grained-image-classification-on-cub-200-1 | Nts-Net | Accuracy: 87.5 |
| multimodal-deep-learning-on-cub-200-2011 | Two Branch Network (Text - Bert + Image - Nts-Net) | Accuracy: 96.81 |
| multimodal-text-and-image-classification-on | Two Branch Network (Text - Bert + Image - Nts-Net) | Accuracy: 96.81 |
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.