Command Palette
Search for a command to run...
MobileViTv3: نموذج محول رؤية صديق للجوال يعتمد على دمج بسيط وفعّال للسمات المحلية والعالمية وسمات المدخلات
MobileViTv3: نموذج محول رؤية صديق للجوال يعتمد على دمج بسيط وفعّال للسمات المحلية والعالمية وسمات المدخلات
Shakti N. Wadekar Abhishek Chaurasia
الملخص
يُجمع MobileViT (MobileViTv1) بين الشبكات العصبية التلافيفية (CNNs) والمحولات البصرية (ViTs) لتكوين نماذج خفيفة الوزن مُخصصة للمهام البصرية على الأجهزة المحمولة. وعلى الرغم من أن الكتلة الرئيسية في MobileViTv1 تُسهم في تحقيق نتائج تنافسية على مستوى أحدث التقنيات، إلا أن الكتلة المُدمجة داخل الكتلة الأساسية تُسبب صعوبات في التوسع وتُشكل مهمة تعليمية معقدة. نقترح تحسينات بسيطة وفعّالة على كتلة الدمج، مما يؤدي إلى تكوين كتلة MobileViTv3 الجديدة، والتي تُعالج مشكلات التوسع وتبسيط مهمة التعلّم. وقد أُستخدمت كتلة MobileViTv3 المقترحة لإنشاء النماذج MobileViTv3-XXS وXS وS، التي تفوق نماذج MobileViTv1 في مجموعات بيانات ImageNet-1k وADE20K وCOCO وPascalVOC2012. على مجموعة بيانات ImageNet-1K، تتفوّق MobileViTv3-XXS وMobileViTv3-XS على MobileViTv1-XXS وMobileViTv1-XS على التوالي بنسبة 2% و1.9%. وقامت البنية المنشورة حديثًا MobileViTv2 بإزالة كتلة الدمج واستخدام محولات ذات تعقيد خطي، مما أدى إلى تفوقها على MobileViTv1. وقد أضفنا كتلة الدمج المقترحة إلى MobileViTv2 لإنشاء نماذج MobileViTv3-0.5 و0.75 و1.0. وتُظهر هذه النماذج الجديدة أداءً أفضل من نماذج MobileViTv2 من حيث الدقة على مجموعات بيانات ImageNet-1k وADE20K وCOCO وPascalVOC2012. وعلى مجموعة بيانات ImageNet-1K، تتفوّق MobileViTv3-0.5 وMobileViTv3-0.75 على MobileViTv2-0.5 وMobileViTv2-0.75 بنسبة 2.1% و1.0% على التوالي. أما في المهام المتعلقة بالتحليل التصنيفي، فإن MobileViTv3-1.0 تحقق تحسنًا بنسبة 2.07% و1.1% في متوسط مؤشر التداخل على المجموعة (mIOU) مقارنة بـ MobileViTv2-1.0 على مجموعتي بيانات ADE20K وPascalVOC2012 على التوالي. يمكن الوصول إلى الشفرة المُقترحة والنماذج المُدرّبة عبر الرابط التالي: https://github.com/micronDLA/MobileViTv3