HyperAIHyperAI
منذ 2 أشهر

FOSNet: شبكة عصبية عميقة قابلة للتدريب من البداية إلى النهاية لتمييز المشاهد

Hongje Seong; Junhyuk Hyun; Euntai Kim
FOSNet: شبكة عصبية عميقة قابلة للتدريب من البداية إلى النهاية لتمييز المشاهد
الملخص

التعرف على المشهد هو مشكلة في التعرف على الصور تهدف إلى التنبؤ بفئة المكان الذي تم التقاط الصورة فيه. في هذا البحث، يتم اقتراح طريقة جديدة للتعرف على المشاهد باستخدام الشبكة العصبية المتلافهة (CNN). تعتمد الطريقة المقترحة على دمج معلومات الكائنات والمعلومات الخاصة بالمشهد في الصورة المعطاة، ويُطلق على إطار العمل للشبكة العصبية المتلافهة اسم FOS (دمج الكائن والمشهد) Net. بالإضافة إلى ذلك، تم تطوير خسارة جديدة تُسمى خسارة التجانس المكاني (SCL) لتدريب FOSNet وتحسين أداء التعرف على المشاهد. تعتمد الخسارة المقترحة SCL على السمات الفريدة للمشهد التي تتضمن انتشار "الخصائص المكانية" وعدم تغيير فئة المشهد عبر كامل الصورة. تم اختبار FOSNet المقترحة على ثلاثة من أكثر قواعد بيانات التعرف على المشاهد شهرة، وتم الحصول على أفضل الأداء الحالي في مجموعتين منها: 60.14٪ في Places 2 و90.37٪ في MIT Indoor 67. كما حصلت على ثاني أعلى أداء بنسبة 77.28٪ في SUN 397.

FOSNet: شبكة عصبية عميقة قابلة للتدريب من البداية إلى النهاية لتمييز المشاهد | أحدث الأوراق البحثية | HyperAI