HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم حدود الدمج والتقليم للرموز في نماذج التحويل البصري

Maxim Bonnaerens Joni Dambre

الملخص

أثبتت نماذج التحويل المرئي (Vision Transformers) نجاحًا ملحوظًا في مجموعة واسعة من مهام الرؤية الحاسوبية على مدى السنوات الأخيرة. ومع ذلك، تظل التكاليف الحسابية العالية عائقًا كبيرًا أمام استخدامها العملي. بشكل خاص، تعتمد تعقيدات نماذج التحويل على عدد الرموز الدخلية اعتمادًا تربيعيًا. ولذلك، تم اقتراح تقنيات لخفض عدد الرموز الدخلية التي يجب معالجتها. يقدم هذا البحث طريقة جديدة تُعرف باسم دمج وإزالة الرموز باستخدام حدود التعلم (Learned Thresholds Token Merging and Pruning - LTMP)، والتي تستفيد من قوة كل من دمج الرموز وإزالتها. يستخدم LTMP وحدات التحكم في الحدود المُتعلمة التي تحدد بشكل ديناميكي أي الرموز يجب دمجها وأيها يجب إزالتها. نوضح نهجنا من خلال تجارب واسعة النطاق على نماذج التحويل المرئي في مهمة تصنيف ImageNet. أظهرت نتائجنا أن LTMP تحقق أفضل دقة مقارنة بالطرق السابقة عبر معدلات الخفض المختلفة، مع الحاجة إلى عصر واحد فقط للضبط الدقيق، وهو ما يسرع العملية بمقدار عشري عن الطرق السابقة. يمكن الحصول على الكود من الرابط: https://github.com/Mxbonn/ltmp .


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp