HyperAIHyperAI
منذ 2 أشهر

ليست جميع الرقع ما تحتاج إليه: تسريع متحولات الرؤية من خلال إعادة تنظيم العلامات

Liang, Youwei ; Ge, Chongjian ; Tong, Zhan ; Song, Yibing ; Wang, Jue ; Xie, Pengtao
ليست جميع الرقع ما تحتاج إليه: تسريع متحولات الرؤية من خلال إعادة تنظيم العلامات
الملخص

ال Transformers البصرية (ViTs) تأخذ جميع الأجزاء الصورية كرموز وتبني انتباه ذاتي متعدد الرؤوس (MHSA) بينها. الاستخدام الكامل لهذه الرموز الصورية يؤدي إلى حسابات زائدة، حيث أن ليس جميع الرموز متنبهة في MHSA. على سبيل المثال، الرموز التي تحتوي على خلفيات صورية غير ذات معنى أو مشتتة لا تساهم بشكل إيجابي في التنبؤات التي يجريها ViT. في هذا البحث، نقترح إعادة تنظيم الرموز الصورية أثناء عملية التغذية الأمامية لنموذج ViT، والتي يتم دمجها في ViT أثناء التدريب. لكل استدلال أمامي، نحدد الرموز الصورية المتنبهة بين وحدات MHSA و FFN (أي الشبكة الأمامية)، وهي عملية تُرشد بواسطة الانتباه المرتبط بالرمز الفصلي. ثم، نعيد تنظيم الرموز الصورية من خلال الحفاظ على الرموز المتنبهة ودمج غير المتنبهة منها لتسريع الحسابات اللاحقة لـ MHSA و FFN. لتحقيق هذا الغرض، طريقتنا EViT تحسن من أداء ViTs من جهتين. الأولى: تحت نفس عدد رموز الصورة المدخلة، طريقتنا تقلل من حسابات MHSA و FFN للحصول على استدلال أكثر كفاءة. على سبيل المثال، يزداد سرعة الاستدلال لـ DeiT-S بنسبة 50% بينما تنخفض دقة التعرف الخاصة به بنسبة 0.3% فقط بالنسبة لتقييم ImageNet. الثانية: عن طريق الحفاظ على نفس الكلفة الحاسوبية، تمكّن طريقتنا ViTs من التعامل مع المزيد من رموز الصورة كمدخلات لتحسين دقة التعرف، حيث تكون هذه الرموز من صور ذات دقة أعلى. مثال آخر هو أننا نحسن دقة التعرف لـ DeiT-S بنسبة 1% لتقييم ImageNet بنفس الكلفة الحاسوبية لـ DeiT-S العادي. وفي الوقت نفسه، لا تضيف طريقتنا أي معلمات إضافية إلى ViTs. تظهر التجارب على مقاييس الأداء القياسية فعالية طريقتنا. يمكن الحصول على الكود من الرابط التالي:https://github.com/youweiliang/evit

ليست جميع الرقع ما تحتاج إليه: تسريع متحولات الرؤية من خلال إعادة تنظيم العلامات | أحدث الأوراق البحثية | HyperAI