HyperAIHyperAI

Command Palette

Search for a command to run...

التحليل الشمولي للدلالات المُشرَّف ضعيفًا باستخدام تعلم كلمات بصرية والتفعيل الهجين

Lixiang Ru Bo Du Yibing Zhan Chen Wu

الملخص

تُعد طرق التجزئة الدلالية الضعيفة التدريب (WSSS) التي تعتمد على العلامات على مستوى الصورة، في العادة، على تدريب شبكة تصنيف لتوليد خرائط التفعيل الفئوي (CAMs) كعلامات تجزئة أولية خشنة. ومع ذلك، لا تزال الطرق الحالية لـ WSSS تحقق أداءً بعيدًا عن المستوى المرضي، وذلك لأنها تعتمد على CAMs التي تُظهر محددات رئيسية، ألا وهي: 1) تركيزها غالبًا على أجزاء جزئية من المناطق التمييزية للكائنات، و2) احتواؤها على مناطق خلفية غير ضرورية. تُعزى هاتان المشكلتان إلى التدريب الوحيد باستخدام الإشراف على مستوى الصورة، بالإضافة إلى تجميع المعلومات العالمية أثناء تدريب شبكات التصنيف. في هذا العمل، نقترح وحدة تعلم الكلمات البصرية (visual words learning module) ونهجًا هجينًا للتوحيد (hybrid pooling)، ونُدمجهما في شبكة التصنيف لتخفيف المشكلات المذكورة أعلاه. في وحدة تعلم الكلمات البصرية، نعالج المشكلة الأولى من خلال إجبار شبكة التصنيف على تعلم علامات كلمات بصرية دقيقة، بحيث يمكن اكتشاف مساحات أوسع للكائنات. وبشكل خاص، يتم تعلم الكلمات البصرية باستخدام مُكتبة رموز (codebook)، التي يمكن تحديثها عبر استراتيجيتين اقتُرحتا في هذا العمل، وهما: الاستراتيجية القائمة على التعلم (learning-based strategy) والاستراتيجية القائمة على ذاكرة التخزين (memory-bank strategy). أما التحدي الثاني الخاص بـ CAMs، فيُخفف من خلال التوحيد الهجين المقترح، الذي يدمج بين المتوسط العالمي والمعلومات التمييزية المحلية، بهدف ضمان اكتمال الكائنات وتقليل المناطق الخلفية في آن واحد. وقد تم تقييم طريقة العمل المقترحة على مجموعتي بيانات PASCAL VOC 2012 وMS COCO 2014. وبلا اعتماد أي معلومات مسبقة عن الانتباه (saliency prior)، حققت الطريقة المُقترحة تقييمًا بنسبة 70.6% و70.7% من متوسط مقياس التداخل بين التوقع والحقائق (mIoU) على مجموعتي التحقق والاختبار من PASCAL VOC على التوالي، وبلغت 36.2% على مجموعة التحقق من MS COCO، مما يفوق بشكل ملحوظ أداء أفضل الطرق الحالية في مجال WSSS.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp