HyperAIHyperAI
منذ 2 أشهر

Evo-ViT: تطور الرموز البطيء والسريع لـ Transformer البصري الديناميكي

Xu, Yifan ; Zhang, Zhijie ; Zhang, Mengdan ; Sheng, Kekai ; Li, Ke ; Dong, Weiming ; Zhang, Liqing ; Xu, Changsheng ; Sun, Xing
Evo-ViT: تطور الرموز البطيء والسريع لـ Transformer البصري الديناميكي
الملخص

لقد حظيت نماذج التحويل البصري (Vision Transformers - ViTs) بشعبية متزايدة بشكل كبير مؤخرًا، لكن تكلفة الحسابات الضخمة لا تزال مشكلة خطيرة. نظرًا لأن تعقيد الحسابات في ViT يتناسب تنازعيًا مع طول سلسلة المدخلات، فإن النهج الرئيسي لتقليل الحسابات هو تقليل عدد الرموز (tokens). تصاميم موجودة تتضمن ضغط فضائي منظم يستخدم هرمًا متصاعدًا لتقليل حسابات الخرائط الميزانية الكبيرة، وتقليم رمزي غير منظم يسقط الرموز الزائدة بطريقة ديناميكية.ومع ذلك، فإن قيود التقليم الرمزي الموجود تنقسم إلى نقطتين: 1) البنية الفضائية غير الكاملة التي تنتج عن التقليم ليست متوافقة مع الضغط الفضائي المنظم الذي يتم استخدامه بشكل شائع في نماذج التحويل العميقة والضيقة الحديثة؛ 2) غالبًا ما يتطلب إجراءً مسبقًا للتدريب يستغرق وقتًا طويلاً.لحل هذه القيود وتوسيع نطاق التطبيق للتقليم الرمزي، نقدم Evo-ViT، وهو نهج تطور بطيء-سريع ذاتي الدافع لاختيار الرموز في نماذج التحويل البصري. تحديداً، نقوم باختيار رموز غير منظمة لكل حالة مستفيدة من انتباه الفصل العالمي البسيط والفعال الذي هو جزء أصلي من نماذج التحويل البصري. ثم، نقترح تحديث الرموز المعلوماتية وغير المعلوماتية باستخدام مسارات حسابية مختلفة، وهي عملية تحديث بطيء-سريع. بما أن آلية التحديث البطيء-السريع تحتفظ بالبنية الفضائية وتدفق المعلومات، يمكن لـ Evo-ViT تسريع النماذج التقليدية للتحويل سواء كانت بنية مسطحة أو عميقة ضيقة منذ بداية عملية التدريب. تظهر النتائج التجريبية أن طرقنا تقلل بشكل كبير من تكلفة الحسابات في نماذج التحويل البصري بينما تحتفظ بأداء مparable على تصنيف الصور.

Evo-ViT: تطور الرموز البطيء والسريع لـ Transformer البصري الديناميكي | أحدث الأوراق البحثية | HyperAI