LeViT: نموذج رؤية من نوع Transformer بملامح شبكات عصبية تلافيفية لتحقيق استدلال أسرع

نصمم عائلة من هياكل تصنيف الصور تُحسّن التوازن بين الدقة والكفاءة في البيئة عالية السرعة. تعتمد دراستنا على نتائج حديثة في الهياكل القائمة على الانتباه، التي تُظهر أداءً تنافسيًا على الأجهزة ذات المعالجة المتوازية العالية. نعيد النظر في المبادئ المستمدة من الأدبيات الواسعة حول الشبكات العصبية التلافيفية (Convolutional Neural Networks)، ونطبقها على نماذج المحولات (Transformers)، لا سيما خرائط التنشيط ذات الدقة المتناقصة. كما نقدّم "التحيّز الانتباهي" (attention bias)، وهي طريقة جديدة لدمج المعلومات المكانية في نماذج المحولات البصرية. وبنتيجة ذلك، نقترح "LeVIT": شبكة عصبية هجينة لتصنيف الصور ذات الاستجابة السريعة. ونأخذ بعين الاعتبار مقاييس مختلفة للكفاءة على منصات صلبة مختلفة، بهدف تعبير دقيق عن مجموعة واسعة من السيناريوهات التطبيقية. وتوصل تجاربنا الواسعة إلى تأكيد تجريبي لاختياراتنا التقنية، وتُظهر أنها مناسبة لمعظم الهياكل. بشكل عام، تتفوق LeViT على الشبكات التلافيفية الحالية (convnets) والمحولات البصرية من حيث توازن السرعة مقابل الدقة. على سبيل المثال، عند تحقيق دقة 80% على معيار ImageNet (Top-1)، تكون LeViT أسرع بخمس مرات من EfficientNet على وحدة المعالجة المركزية (CPU). ونُطلق الكود على الرابط التالي: https://github.com/facebookresearch/LeViT