HyperAIHyperAI
منذ 2 أشهر

تعلم التحكم المكاني باستخدام الإشراف على مستوى الصورة لتصنيف الصور متعددة العلامات

Feng Zhu; Hongsheng Li; Wanli Ouyang; Nenghai Yu; Xiaogang Wang
تعلم التحكم المكاني باستخدام الإشراف على مستوى الصورة لتصنيف الصور متعددة العلامات
الملخص

تصنيف الصور متعدد العلامات هو مهمة أساسية ولكنها صعبة في مجال رؤية الحاسوب. لقد تحقق تقدم كبير في السنوات الأخيرة من خلال استغلال العلاقات الدلالية بين العلامات. ومع ذلك، فإن الأساليب التقليدية غير قادرة على نمذجة العلاقات المكانية الكامنة بين العلامات في الصور متعددة العلامات، لأن التسميات المكانية للعلامات لا تُوفر عادةً. في هذا البحث، نقترح شبكة عصبية عميقة موحدة تستغل كلًا من العلاقات الدلالية والمكانية بين العلامات باستخدام الإشراف على مستوى الصورة فقط. عند تقديم صورة متعددة العلامات، تقوم شبكتنا المقترحة لتنظيم الفضاء (Spatial Regularization Network - SRN) بإنشاء خرائط الاهتمام لكل العلامات وتقاطع العلاقات الكامنة بينها عبر التحويلات القابلة للتعلم. بدمج النتائج المصنفة المنظمة مع النتائج الأصلية بواسطة شبكة ResNet-101، يمكن تحسين أداء التصنيف بشكل مستمر. يتم تدريب الشبكة العصبية العميقة بأكملها بطريقة شاملة باستخدام الإشراف على مستوى الصورة فقط، مما يعني أنها لا تتطلب جهودًا إضافية في تسمية الصور. أظهرت التقييمات الواسعة على ثلاثة مجموعات بيانات عامة تحتوي على أنواع مختلفة من العلامات أن نهجنا يتفوق بشكل كبير على أفضل الأساليب الحالية ويتمتع بقدرة تعميم قوية. يوضح تحليل النموذج الذي تم تعلمه لـ SRN أنه يمكنه التقاط كلًا من العلاقات الدلالية والمكانية للعلامات بكفاءة لتحسين أداء التصنيف.

تعلم التحكم المكاني باستخدام الإشراف على مستوى الصورة لتصنيف الصور متعددة العلامات | أحدث الأوراق البحثية | HyperAI