FastViT: نموذج هجين سريع للرؤية يستخدم إعادة بارامترization هيكلية

أدى الدمج الأخير بين التصاميم القائمة على المحولات (Transformers) والتصميمات القائمة على التفتيت (Convolutional) إلى تحسين مستمر في دقة كفاءة النماذج. في هذا العمل، نقدم FastViT، وهي بنية هجينة لمحول الرؤية (Vision Transformer) تحقق أفضل توازن بين زمن التأخير (latency) والدقة حتى الآن. ولتحقيق ذلك، نقدّم عامل مزج الرموز (token mixing operator) الجديد RepMixer، وهو مكوّن أساسي في FastViT، والذي يستخدم إعادة هيكلة بنائية (structural reparameterization) لتقليل تكلفة الوصول إلى الذاكرة من خلال إزالة الروابط الجانبية (skip-connections) في الشبكة. بالإضافة إلى ذلك، نطبق تفخيمًا مفرطًا أثناء التدريب (train-time overparametrization) والتفتيتات ذات النوافذ الكبيرة (large kernel convolutions) لتعزيز الدقة، ونُظهر تجريبيًا أن هذه الخيارات تؤثر بشكل ضئيل على زمن التأخير. نبين أن نموذجنا أسرع بـ 3.5 مرة من CMT، وهي بنية هجينة حديثة من أحدث النماذج، وأسرع بـ 4.9 مرة من EfficientNet، وأسرع بـ 1.9 مرة من ConvNeXt على جهاز متنقل، مع الحفاظ على نفس الدقة على مجموعة بيانات ImageNet. وفي ظل زمن تأخير مشابه، يحقق نموذجنا دقة أعلى بنسبة 4.2% في الدرجة الأولى (Top-1 accuracy) على ImageNet مقارنة بـ MobileOne. ويتفوق نموذجنا بشكل مستمر على البنى التنافسية في عدة مهام — التصنيف الصوتي، الكشف، التجزئة، وانحدار الشبكات ثلاثية الأبعاد — مع تحسين ملحوظ في زمن التأخير على كل من الجهاز المحمول ووحدة معالجة الرسومات المكتبية (desktop GPU). علاوة على ذلك، يُظهر نموذجنا مقاومة عالية للعينات الخارجة عن التوزيع (out-of-distribution) والتلف (corruptions)، متفوقًا على النماذج التنافسية المقاومة الأخرى. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/apple/ml-fastvit.