شبكة إينسيبشن موسعة لتنبؤ البارزة البصرية

في الآونة الأخيرة، ومع ظهور الشبكات العصبية المتعمقة المتشعبة (DCNN)، أصبحت التحسينات في أبحاث توقع البارزة البصرية ملحوظة بشكل كبير. أحد الاتجاهات المحتملة لتحقيق التحسن التالي هو تمييز عوامل التأثير البارزة متعددة المقاييس بشكل كامل باستخدام وحدة صديقة للحساب في هياكل الشبكات العصبية المتعمقة المتشعبة. في هذا العمل، اقترحنا شبكة انطلاق ممتدة من النهاية إلى النهاية (DINet) لتوقع البارزة البصرية. هذه الشبكة تلتقط الخصائص السياقية متعددة المقاييس بكفاءة مع زيادة قليلة جداً في عدد المعلمات الإضافية. بدلاً من استخدام التفافات قياسية متوازية بأحجام نواة مختلفة كما هو الحال في الوحدة الانطلاقية الحالية، يستخدم وحدتنا الانطلاقية الممتدة (DIM) تفافات ممتدة متوازية بمعدلات توسيع مختلفة، مما يمكن من تقليص حمل الحساب بشكل كبير بينما يزيد من تنوع مجالات الاستقبال في خرائط الخصائص. بالإضافة إلى ذلك، يتم تحسين أداء نموذج بارزتنا بشكل أكبر من خلال استخدام مجموعة من مقاييس المسافة بين التوزيعات الاحتمالية المستندة إلى التطبيع الخطي كدالات خسارة. بهذه الطريقة، يمكننا صياغة مهمة توقع البارزة كمهمة تنبؤ بالتوزيع الاحتمالي على مستوى العالم بدلاً من مشكلة الانحدار البكسلية التقليدية. تظهر النتائج التجريبية على عدة مجموعات بيانات مرجعية صعبة أن شبكتنا DINet مع دوال الخسارة المقترحة يمكن أن تحقق أداءً رائدًا مع وقت استدلال أقصر.