ThunderNet: نحو الكشف الفوري عن الأشياء العامة

الكشف الفوري عن الأشياء العامة على منصات المحمول هو مهمة حاسوبية بصرية حاسمة ولكنها صعبة. ومع ذلك، فإن الكاشفات القائمة على شبكات النيورونات العصبية التلافيفية (CNN) السابقة تعاني من تكلفة حوسبة ضخمة، مما يعيق قدرتها على الاستدلال الفوري في السيناريوهات ذات القيود الحوسبية. في هذا البحث، ندرس فعالية الكاشفات ثنائية المرحلة في الكشف الفوري عن الأشياء العامة ونقترح كاشفًا خفيف الوزن ثنائي المرحلة باسم ThunderNet. فيما يتعلق بالهيكل الأساسي، نحلل العيوب في الهياكل الأساسية الخفيفة الوزن السابقة ونقدم هيكلًا أساسيًا خفيف الوزن مصمم للكشف عن الأشياء. بالنسبة لجزء الكشف، نستغل تصميمًا فائق الكفاءة لشبكة اقتراح المناطق (RPN) ورأس الكشف. لإنتاج تمثيل خصائص أكثر تمييزًا، نصمم كتلتي بنية فعالتين، وهما وحدة تعزيز السياق (Context Enhancement Module) ووحدة الانتباه المكاني (Spatial Attention Module). أخيرًا، ندرس التوازن بين دقة الإدخال والهيكل الأساسي ورأس الكشف. مقارنةً بالكاشفات الخفيفة الوزن ذات المرحلة الواحدة، يحقق ThunderNet أداءً أفضل بمعدل 40٪ فقط من التكلفة الحوسبية على مقاييس PASCAL VOC وCOCO. بدون أي تعديلات إضافية، يعمل نموذجنا بمعدل 24.1 إطارًا في الثانية على جهاز قائم على معالج ARM. حسب علمنا، هذا هو أول كاشف فوري يتم الإبلاغ عنه على منصات ARM. رمز البرمجيات والنماذج متاحة على الرابط \url{https://github.com/qinzheng93/ThunderNet}.