HyperAIHyperAI
منذ 11 أيام

التحليل الشمولي للدلالات المُشرَّف ضعيفًا باستخدام تعلم كلمات بصرية والتفعيل الهجين

Lixiang Ru, Bo Du, Yibing Zhan, Chen Wu
التحليل الشمولي للدلالات المُشرَّف ضعيفًا باستخدام تعلم كلمات بصرية والتفعيل الهجين
الملخص

تُعد طرق التجزئة الدلالية الضعيفة التدريب (WSSS) التي تعتمد على العلامات على مستوى الصورة، في العادة، على تدريب شبكة تصنيف لتوليد خرائط التفعيل الفئوي (CAMs) كعلامات تجزئة أولية خشنة. ومع ذلك، لا تزال الطرق الحالية لـ WSSS تحقق أداءً بعيدًا عن المستوى المرضي، وذلك لأنها تعتمد على CAMs التي تُظهر محددات رئيسية، ألا وهي: 1) تركيزها غالبًا على أجزاء جزئية من المناطق التمييزية للكائنات، و2) احتواؤها على مناطق خلفية غير ضرورية. تُعزى هاتان المشكلتان إلى التدريب الوحيد باستخدام الإشراف على مستوى الصورة، بالإضافة إلى تجميع المعلومات العالمية أثناء تدريب شبكات التصنيف. في هذا العمل، نقترح وحدة تعلم الكلمات البصرية (visual words learning module) ونهجًا هجينًا للتوحيد (hybrid pooling)، ونُدمجهما في شبكة التصنيف لتخفيف المشكلات المذكورة أعلاه. في وحدة تعلم الكلمات البصرية، نعالج المشكلة الأولى من خلال إجبار شبكة التصنيف على تعلم علامات كلمات بصرية دقيقة، بحيث يمكن اكتشاف مساحات أوسع للكائنات. وبشكل خاص، يتم تعلم الكلمات البصرية باستخدام مُكتبة رموز (codebook)، التي يمكن تحديثها عبر استراتيجيتين اقتُرحتا في هذا العمل، وهما: الاستراتيجية القائمة على التعلم (learning-based strategy) والاستراتيجية القائمة على ذاكرة التخزين (memory-bank strategy). أما التحدي الثاني الخاص بـ CAMs، فيُخفف من خلال التوحيد الهجين المقترح، الذي يدمج بين المتوسط العالمي والمعلومات التمييزية المحلية، بهدف ضمان اكتمال الكائنات وتقليل المناطق الخلفية في آن واحد. وقد تم تقييم طريقة العمل المقترحة على مجموعتي بيانات PASCAL VOC 2012 وMS COCO 2014. وبلا اعتماد أي معلومات مسبقة عن الانتباه (saliency prior)، حققت الطريقة المُقترحة تقييمًا بنسبة 70.6% و70.7% من متوسط مقياس التداخل بين التوقع والحقائق (mIoU) على مجموعتي التحقق والاختبار من PASCAL VOC على التوالي، وبلغت 36.2% على مجموعة التحقق من MS COCO، مما يفوق بشكل ملحوظ أداء أفضل الطرق الحالية في مجال WSSS.

التحليل الشمولي للدلالات المُشرَّف ضعيفًا باستخدام تعلم كلمات بصرية والتفعيل الهجين | أحدث الأوراق البحثية | HyperAI