HyperAIHyperAI

Command Palette

Search for a command to run...

MobileViTv3: نموذج محول رؤية صديق للجوال يعتمد على دمج بسيط وفعّال للسمات المحلية والعالمية وسمات المدخلات

Shakti N. Wadekar Abhishek Chaurasia

الملخص

يُجمع MobileViT (MobileViTv1) بين الشبكات العصبية التلافيفية (CNNs) والمحولات البصرية (ViTs) لتكوين نماذج خفيفة الوزن مُخصصة للمهام البصرية على الأجهزة المحمولة. وعلى الرغم من أن الكتلة الرئيسية في MobileViTv1 تُسهم في تحقيق نتائج تنافسية على مستوى أحدث التقنيات، إلا أن الكتلة المُدمجة داخل الكتلة الأساسية تُسبب صعوبات في التوسع وتُشكل مهمة تعليمية معقدة. نقترح تحسينات بسيطة وفعّالة على كتلة الدمج، مما يؤدي إلى تكوين كتلة MobileViTv3 الجديدة، والتي تُعالج مشكلات التوسع وتبسيط مهمة التعلّم. وقد أُستخدمت كتلة MobileViTv3 المقترحة لإنشاء النماذج MobileViTv3-XXS وXS وS، التي تفوق نماذج MobileViTv1 في مجموعات بيانات ImageNet-1k وADE20K وCOCO وPascalVOC2012. على مجموعة بيانات ImageNet-1K، تتفوّق MobileViTv3-XXS وMobileViTv3-XS على MobileViTv1-XXS وMobileViTv1-XS على التوالي بنسبة 2% و1.9%. وقامت البنية المنشورة حديثًا MobileViTv2 بإزالة كتلة الدمج واستخدام محولات ذات تعقيد خطي، مما أدى إلى تفوقها على MobileViTv1. وقد أضفنا كتلة الدمج المقترحة إلى MobileViTv2 لإنشاء نماذج MobileViTv3-0.5 و0.75 و1.0. وتُظهر هذه النماذج الجديدة أداءً أفضل من نماذج MobileViTv2 من حيث الدقة على مجموعات بيانات ImageNet-1k وADE20K وCOCO وPascalVOC2012. وعلى مجموعة بيانات ImageNet-1K، تتفوّق MobileViTv3-0.5 وMobileViTv3-0.75 على MobileViTv2-0.5 وMobileViTv2-0.75 بنسبة 2.1% و1.0% على التوالي. أما في المهام المتعلقة بالتحليل التصنيفي، فإن MobileViTv3-1.0 تحقق تحسنًا بنسبة 2.07% و1.1% في متوسط مؤشر التداخل على المجموعة (mIOU) مقارنة بـ MobileViTv2-1.0 على مجموعتي بيانات ADE20K وPascalVOC2012 على التوالي. يمكن الوصول إلى الشفرة المُقترحة والنماذج المُدرّبة عبر الرابط التالي: https://github.com/micronDLA/MobileViTv3


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MobileViTv3: نموذج محول رؤية صديق للجوال يعتمد على دمج بسيط وفعّال للسمات المحلية والعالمية وسمات المدخلات | مستندات | HyperAI