HyperAIHyperAI
منذ 17 أيام

LR-Net: شبكة عصبية متعددة الطبقات قائم على الكتل لتصنيف الصور ذات الدقة المنخفضة

Ashkan Ganj, Mohsen Ebadpour, Mahdi Darvish, Hamid Bahador
LR-Net: شبكة عصبية متعددة الطبقات قائم على الكتل لتصنيف الصور ذات الدقة المنخفضة
الملخص

أصبحت الهياكل القائمة على الشبكات العصبية التلافيفية (CNN) شائعة جدًا في التصنيف الصوتي للصور، وذلك بفضل نجاحها في التعلم واستخراج السمات، لكن تصبح مهمة التصنيف الصوتي أكثر تعقيدًا عند تطبيق النماذج الحديثة لتصنيف الصور ذات الجودة المنخفضة والضوضاء. لا يزال من الصعب على النماذج استخراج سمات ذات معنى من هذا النوع من الصور بسبب انخفاض دقتها والافتقار إلى السمات العالمية المفيدة. علاوة على ذلك، تتطلب الصور عالية الدقة عددًا أكبر من الطبقات للتدريب، مما يعني أنها تستهلك وقتًا أطول وقوة حسابية أكبر. كما أن طريقة عملنا تعالج أيضًا مشكلة انعدام التدرجات (vanishing gradients) التي تحدث عندما تصبح الطبقات أعمق في الشبكات العصبية العميقة، والتي أشرنا إليها سابقًا. ولحل جميع هذه المشكلات، طوّرنا معمارية جديدة لتصنيف الصور، مكوّنة من كتل مصممة لاستخلاص السمات من المستوى المنخفض والسمات العالمية من الصور الضبابية والمشوّشة ذات الدقة المنخفضة. وقد تأثر تصميم هذه الكتل بشكل كبير باتصالات التباين (Residual Connections) ووحدات الإنجوست (Inception Modules)، بهدف تعزيز الأداء وتقليل حجم المعلمات. كما قمنا بتقييم عملنا باستخدام مجموعات بيانات MNIST، مع التركيز الخاص على مجموعة Oracle-MNIST، التي تُعدّ الأصعب في التصنيف بسبب جودتها المنخفضة وتشويشها. وقد أجرينا اختبارات متعمقة تُظهر أن المعمارية المقدمة أسرع وأكثر دقة من الشبكات العصبية التلافيفية الرائدة الحالية. علاوة على ذلك، وبفضل الخصائص الفريدة لنموذجنا، يمكنه تحقيق نتائج أفضل باستخدام عدد أقل من المعلمات.