Efficient Vits
تهدف النماذج الفعالة من Vision Transformers (ViTs) إلى تعزيز كفاءة Vision Transformers دون تغيير هيكلية Transformer. تشمل التقنيات الرئيسية تخفيف المفاتيح والاستعلامات، وتقليم الرموز، ودمج الرموز. يمكن لهذا النهج أن يقلل بشكل كبير من التكاليف الحسابية واستهلاك الذاكرة مع الحفاظ على أداء النموذج، مما يحسن سرعات التدريب والاستدلال على مجموعات البيانات الكبيرة. وهو مناسب للمعالجة الفورية للصور ومهمات الرؤية الحاسوبية في البيئات ذات الموارد المحدودة.