شبكات التوالي المُراقبة بضعف

اكتشاف الأشياء هو مهمة صعبة في مجال فهم الصور، وهو أكثر تحديًا إذا كانت الرقابة ضعيفة. مؤخرًا، تم إنشاء بعض الجهود الواعدة بواسطة الشبكات العصبية العميقة للتعامل مع هذه المهمة دون الحاجة إلى تسميات بشرية باهظة الثمن. تم اقتراح معمارية جديدة لشبكات متسلسلة لتعلم شبكة عصبية تقنية التجميع (CNN) تحت هذه الظروف. نقدم نوعين من هذه المعماريات، إما ذات مرحلتين أو ثلاث مراحل يتم تدريبهما في خط أنابيب شامل. تقوم المرحلة الأولى من كلا المعماريتين باستخراج أفضل مرشح لاقتراحات المناطق الخاصة بالفئة من خلال تدريب شبكة تقنية التجميع الكاملة. وفي حالة معمارية الثلاث مراحل، توفر المرحلة الوسطى تقسيم الأشياء باستخدام خرج خرائط التنشيط من المرحلة الأولى. تكون المرحلة النهائية لكلا المعماريتين جزءًا من شبكة عصبية تقنية التجميع التي تقوم بتعلم أمثل على عدة حالات على المرشحات المستخرجة في المراحل السابقة. أظهرت تجاربنا على مجموعات بيانات PASCAL VOC 2007 و 2010 و 2012 ومجموعات بيانات كشف الأشياء على نطاق واسع مثل ILSVRC 2013 و 2014 تحسينات في مجالات كشف الأشياء بتوجيه ضعيف، والتصنيف والتوضيح.请注意,这里“Fully Convolutional Network”被翻译为“شبكة تقنية التجميع الكاملة”,而“Multiple Instance Learning”则被翻译为“تعلم أمثل على عدة حالات”。这些都是在阿拉伯语中常用的术语。如果需要进一步的专业术语校对,请告知。