ريز-فمامبا: تصنيف بصري دقيق للتصنيفات الغذائية باستخدام نماذج الفضاء الحالة الانتقائية مع التعلم المتبقي العميق

تصنيف الطعام هو الأساس لتطوير مهام رؤية الطعام ويلعب دورًا محوريًا في مجال التغذية الحاسوبية النامي. نظرًا للتعقيد الذي يشوب الطعام والذي يتطلب تصنيفًا دقيقًا، تركز الأبحاث الأكاديمية الحديثة بشكل أساسي على تعديل شبكات العصبونات المتكررة (CNNs) و/أو متحولات الرؤية (ViTs) لأداء تصنيف فئات الطعام. ومع ذلك، من أجل تعلم الخصائص الدقيقة، يحتاج هيكل الشبكة العصبية المتكررة (CNN) إلى تصميم هيكلي إضافي، بينما تحتوي متحولات الرؤية (ViT)، التي تتضمن وحدة الانتباه الذاتي، على تعقيد حسابي متزايد. في الأشهر الأخيرة، أظهرت نموذج الفضاء الزمني للسلسلة (S4) الجديد، من خلال آلية الاختيار والحساب باستخدام المسح الضوئي (S6)، والتي تُعرف شعبيًا باسم Mamba، أداءً أفضل وكفاءة حسابية أعلى مقارنة ببنية متحولات الرؤية (Transformer). يُعد نموذج VMamba، الذي يدمج آليات Mamba في مهام الصور (مثل التصنيف)، حالياً المعيار الذهبي (SOTA) على مجموعة بيانات ImageNet. في هذا البحث، نقدم مجموعة بيانات الطعام CNFOOD-241 التي يتم تقييمها بشكل غير كافٍ من الناحية الأكاديمية، ونقوم بتوسيع نطاق استخدام الإطار التعليمي المتبقي داخل نموذج VMamba للاستفادة من الخصائص الحالة العالمية والمحلية الموجودة في التصميم الأصلي لـ VMamba. تشير نتائج البحث إلى أن VMamba يتفوق على النماذج الحالية ذات المعيار الذهبي في التصنيف الدقيق وتصنيف الطعام. يحسن النموذج المقترح Res-VMamba دقة التصنيف بنسبة 79.54٪ دون الحاجة إلى وزن تم تدريبه مسبقًا. توضح نتائجنا أن منهجيتنا المقترحة قد أنشأت معيارًا جديدًا للأداء الذهبي في مجال اعتراف الطعام على مجموعة بيانات CNFOOD-241. يمكن الحصول على الكود من GitHub: https://github.com/ChiShengChen/ResVMamba.