HyperAIHyperAI

Command Palette

Search for a command to run...

LeViT: نموذج رؤية من نوع Transformer بملامح شبكات عصبية تلافيفية لتحقيق استدلال أسرع

Ben Graham Alaaeldin El-Nouby Hugo Touvron Pierre Stock Armand Joulin Hervé Jégou Matthijs Douze

الملخص

نصمم عائلة من هياكل تصنيف الصور تُحسّن التوازن بين الدقة والكفاءة في البيئة عالية السرعة. تعتمد دراستنا على نتائج حديثة في الهياكل القائمة على الانتباه، التي تُظهر أداءً تنافسيًا على الأجهزة ذات المعالجة المتوازية العالية. نعيد النظر في المبادئ المستمدة من الأدبيات الواسعة حول الشبكات العصبية التلافيفية (Convolutional Neural Networks)، ونطبقها على نماذج المحولات (Transformers)، لا سيما خرائط التنشيط ذات الدقة المتناقصة. كما نقدّم "التحيّز الانتباهي" (attention bias)، وهي طريقة جديدة لدمج المعلومات المكانية في نماذج المحولات البصرية. وبنتيجة ذلك، نقترح "LeVIT": شبكة عصبية هجينة لتصنيف الصور ذات الاستجابة السريعة. ونأخذ بعين الاعتبار مقاييس مختلفة للكفاءة على منصات صلبة مختلفة، بهدف تعبير دقيق عن مجموعة واسعة من السيناريوهات التطبيقية. وتوصل تجاربنا الواسعة إلى تأكيد تجريبي لاختياراتنا التقنية، وتُظهر أنها مناسبة لمعظم الهياكل. بشكل عام، تتفوق LeViT على الشبكات التلافيفية الحالية (convnets) والمحولات البصرية من حيث توازن السرعة مقابل الدقة. على سبيل المثال، عند تحقيق دقة 80% على معيار ImageNet (Top-1)، تكون LeViT أسرع بخمس مرات من EfficientNet على وحدة المعالجة المركزية (CPU). ونُطلق الكود على الرابط التالي: https://github.com/facebookresearch/LeViT


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp