منذ 6 أشهر

الملخص

أدى الدمج الأخير بين التصاميم القائمة على المحولات (Transformers) والتصميمات القائمة على التفتيت (Convolutional) إلى تحسين مستمر في دقة كفاءة النماذج. في هذا العمل، نقدم FastViT، وهي بنية هجينة لمحول الرؤية (Vision Transformer) تحقق أفضل توازن بين زمن التأخير (latency) والدقة حتى الآن. ولتحقيق ذلك، نقدّم عامل مزج الرموز (token mixing operator) الجديد RepMixer، وهو مكوّن أساسي في FastViT، والذي يستخدم إعادة هيكلة بنائية (structural reparameterization) لتقليل تكلفة الوصول إلى الذاكرة من خلال إزالة الروابط الجانبية (skip-connections) في الشبكة. بالإضافة إلى ذلك، نطبق تفخيمًا مفرطًا أثناء التدريب (train-time overparametrization) والتفتيتات ذات النوافذ الكبيرة (large kernel convolutions) لتعزيز الدقة، ونُظهر تجريبيًا أن هذه الخيارات تؤثر بشكل ضئيل على زمن التأخير. نبين أن نموذجنا أسرع بـ 3.5 مرة من CMT، وهي بنية هجينة حديثة من أحدث النماذج، وأسرع بـ 4.9 مرة من EfficientNet، وأسرع بـ 1.9 مرة من ConvNeXt على جهاز متنقل، مع الحفاظ على نفس الدقة على مجموعة بيانات ImageNet. وفي ظل زمن تأخير مشابه، يحقق نموذجنا دقة أعلى بنسبة 4.2% في الدرجة الأولى (Top-1 accuracy) على ImageNet مقارنة بـ MobileOne. ويتفوق نموذجنا بشكل مستمر على البنى التنافسية في عدة مهام — التصنيف الصوتي، الكشف، التجزئة، وانحدار الشبكات ثلاثية الأبعاد — مع تحسين ملحوظ في زمن التأخير على كل من الجهاز المحمول ووحدة معالجة الرسومات المكتبية (desktop GPU). علاوة على ذلك، يُظهر نموذجنا مقاومة عالية للعينات الخارجة عن التوزيع (out-of-distribution) والتلف (corruptions)، متفوقًا على النماذج التنافسية المقاومة الأخرى. يمكن الوصول إلى الكود والنماذج عبر الرابط: https://github.com/apple/ml-fastvit.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FastViT: نموذج هجين سريع للرؤية يستخدم إعادة بارامترization هيكلية

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FastViT: نموذج هجين سريع للرؤية يستخدم إعادة بارامترization هيكلية

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FastViT: نموذج هجين سريع للرؤية يستخدم إعادة بارامترization هيكلية

Pavan Kumar Anasosalu Vasu James Gabriel Jeff Zhu Oncel Tuzel Anurag Ranjan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters