HyperAIHyperAI

Command Palette

Search for a command to run...

الدمج متعدد المعايير للرموز مع الانتباه المتقدم بخطوة واحدة لتحسين كفاءة متحولات الرؤية

Sanghyeok Lee Joonmyung Choi Hyunwoo J. Kim

الملخص

ظهر نموذج Vision Transformer (ViT) كعمود فقري بارز في مجال رؤية الحاسوب. لتحسين كفاءة ViTs، تعمل الدراسات الحديثة على تقليل التكلفة التربيعية لطبقة الانتباه الذاتي من خلال تقليم أو دمج الرموز الزائدة. ومع ذلك، واجهت هذه الدراسات تحدي التوازن بين السرعة والدقة الناتج عن فقدان المعلومات. في هذا البحث، نؤكد أن عملية دمج الرموز يجب أن تأخذ بعين الاعتبار العلاقات المتنوعة بين الرموز لتقليل فقدان المعلومات إلى أدنى حد ممكن. نقترح في هذه الورقة طريقة Multi-criteria Token Fusion (MCTF)، التي تقوم بدمج الرموز تدريجيًا بناءً على معايير متعددة (مثل الشبه، والمعلوماتية، وحجم الرموز المدمجة). بالإضافة إلى ذلك، نستفيد من انتباه الخطوة الواحدة القادمة، وهو نهج محسن لتحديد المعلوماتية للرموز. من خلال تدريب النموذج المجهز بميزة MCTF باستخدام ثبات تخفيض الرموز، نحقق أفضل توازن بين السرعة والدقة في تصنيف الصور (ImageNet1K). تثبت النتائج التجريبية أن MCTF يتفوق باستمرار على طرق التخفيض السابقة سواء مع أو بدون التدريب. بشكل خاص، يقلل DeiT-T وDeiT-S المجهزان بميزة MCTF من العمليات العددية (FLOPs) بنسبة حوالي 44% مع تحسين الأداء (+0.5% و+0.3%) مقارنة بالنموذج الأساسي، على التوالي. كما نوضح قابلية التطبيق لميزة MCTF في مختلف نماذج Vision Transformers (مثل T2T-ViT وLV-ViT)، حيث يتم تحقيق سرعة زيادة بنسبة لا تقل عن 31% دون أي انخفاض في الأداء. يمكن الوصول إلى الكود عبر الرابط: https://github.com/mlvlab/MCTF.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الدمج متعدد المعايير للرموز مع الانتباه المتقدم بخطوة واحدة لتحسين كفاءة متحولات الرؤية | مستندات | HyperAI