نماذج الأجزاء المكملة شبه المراقبة لتصنيف الصور الدقيق من الأسفل إلى الأعلى

بالنظر إلى مجموعة بيانات تدريب تتكون من صور وتصنيفات فئوية متناظرة، فإن الشبكات العصبية التلافيفية العميقة تظهر قدرة قوية على استخراج الأجزاء المميزة لتصنيف الصور. ومع ذلك، فإن الشبكات العصبية التلافيفية العميقة التي يتم تدريبها باستخدام تصنيفات الصور فقط تميل إلى التركيز على الأجزاء الأكثر تمييزًا بينما تغفل عن أجزاء أخرى من الكائنات يمكن أن توفر معلومات مكملة. في هذا البحث، نتناول هذه المشكلة من وجهة نظر مختلفة. نقوم ببناء نماذج للأجزاء المكملة بطريقة إشراف ضعيف لاسترجاع المعلومات التي يقمعها الأجزاء السائدة لكائنات تم اكتشافها بواسطة الشبكات العصبية التلافيفية. بالاعتماد على تصنيفات الصور فقط، نستخرج أولاً حالات كائنات خشنة من خلال تنفيذ اكتشاف كائنات وإنشاء مقاطع ضعيفة الإشراف باستخدام Mask R-CNN والتقسيم المستند إلى CRF (CRF-based segmentation). ثم نقدر ونبحث عن أفضل نموذج أجزاء لكل حالة كائن تحت مبدأ الحفاظ على أكبر قدر ممكن من التنوع. في المرحلة الأخيرة، نبني شبكة ذاكرة طويلة المدى قصيرة (LSTM) ثنائية الاتجاه لدمج وترميز المعلومات الجزئية لهذه الأجزاء المكملة في خاصية شاملة لتصنيف الصور. تشير النتائج التجريبية إلى أن الطريقة المقترحة لا仅تحقيق تحسين كبير على نماذجنا الأساسية فحسب، بل أيضًا تتفوق بشكل كبير على الخوارزميات الرائدة (بنسب 6.7٪، 2.8٪، 5.2٪ على التوالي) في مجموعات بيانات كلاب ستانفورد 120 وطيور كالتك-يو سي أس دي 2011-200 وكالتك 256.请注意,最后一句中的“不仅”和“而且”在阿拉伯语中通常会用“لا仅... فحسب، بل أيضًا”来表达,但为了使句子更加流畅,可以简化为“لا仅... بل”. 因此,最后一句也可以这样翻译:تشير النتائج التجريبية إلى أن الطريقة المقترحة لا仅 تحقق تحسينًا كبيرًا على نماذجنا الأساسية بل تتفوق بشكل كبير على الخوارزميات الرائدة (بنسب 6.7٪، 2.8٪، 5.2٪ على التوالي) في مجموعات بيانات كلاب ستانفورد 120 وطيور كالتك-يو سي أس دي 2011-200 وكالتك 256.