HyperAIHyperAI
منذ 2 أشهر

الشبكات العصبية الثنائية للتمييز البصري الدقيق

Tsung-Yu Lin; Aruni RoyChowdhury; Subhransu Maji
الشبكات العصبية الثنائية للتمييز البصري الدقيق
الملخص

نقدم معمارية بسيطة وفعالة للتمييز البصري الدقيق تُعرف باسم شبكات العصبونات المتشابكة ثنائية الخطية (B-CNNs). تقوم هذه الشبكات بتمثيل الصورة كمنتج خارجي مشترك لميزات مستخرجة من شبكتين عصبيتين متشابكتين وتقضي على التفاعلات المحلية للميزات بطريقة ثابتة تحت الترجمة. تنتمي شبكات B-CNN إلى فئة تمثيلات النسيج غير المرتبة، ولكنها على عكس الأعمال السابقة يمكن تدريبها بطريقة شاملة من البداية إلى النهاية. يحقق نموذجنا الأكثر دقة نسبة صحة لكل صورة تبلغ 84.1٪، 79.4٪، 86.9٪ و91.3٪ على مجموعات البيانات Caltech-UCSD الطيور [67]، NABirds [64]، FGVC الطائرات [42]، وStanford السيارات [33] على التوالي، ويُشغل بمعدل 30 إطارًا في الثانية على معالج الرسومات NVIDIA Titan X.ثم نقدم تحليلًا منهجيًا لهذه الشبكات ونوضح أن (1) الميزات الثنائية شديدة الأهمية ويمكن تقليص حجمها بمقدار عشرين مرة دون فقدان كبير في الدقة، (2) أنها فعالة أيضًا لمهام تصنيف الصور الأخرى مثل تمييز النسيج والمشهد، و(3) يمكن تدريبها من الصفر على مجموعة بيانات ImageNet مع تقديم تحسينات ثابتة على الهيكل الأساسي.أخيرًا، نقدم تصورات لهذه النماذج باستخدام مجموعات البيانات المختلفة عن طريق استخدام أعلى التنشيطات للوحدات العصبية وتقنيات الانعكاس القائمة على التدرج. يمكن الحصول على الكود المصدر لنظام كامل من الرابط http://vis-www.cs.umass.edu/bcnn.