HyperAIHyperAI
منذ 4 أشهر

AdaViT: رموز متكيفة لتحسين كفاءة محول الرؤية

Yin, Hongxu ; Vahdat, Arash ; Alvarez, Jose ; Mallya, Arun ; Kautz, Jan ; Molchanov, Pavlo
AdaViT: رموز متكيفة لتحسين كفاءة محول الرؤية
الملخص

نقدم A-ViT، وهي طريقة تقوم بتعديل تكلفة الاستدلال في متحولات الرؤية (Vision Transformer - ViT) بشكل تكيفي لصور ذات تعقيدات مختلفة. تحقق A-ViT هذا الهدف من خلال تقليل عدد الرموز (tokens) التي يتم معالجتها في الشبكة أثناء عملية الاستدلال بشكل آلي. نعيد صياغة وقت الحساب التكيفي (Adaptive Computation Time - ACT) لهذه المهمة، حيث نوسع نطاق الإيقاف ليشمل التخلص من الرموز المكانية الزائدة. الخصائص المعمارية الجذابة لمتحولات الرؤية تمكن آليتنا للتقليل التكيفي للرموز من تسريع الاستدلال دون تعديل بنية الشبكة أو أجهزة الاستدلال. نوضح أن A-ViT لا تحتاج إلى أي معلمات إضافية أو شبكات فرعية للإيقاف، حيث نعتمد على معلمات الشبكة الأصلية في تعلم الإيقاف التكيفي. كما نقدم تنظيمًا سابقًا توزيعيًا يثبيت التدريب مقارنة بالطرق السابقة لـ ACT. في مهمة تصنيف الصور (ImageNet1K)، نظهر أن الطريقة المقترحة A-ViT تكون فعالة للغاية في تصفيه الخصائص المكانية المعلوماتية وخفض الحساب الكلي. الطريقة المقترحة تحسن كفاءة DeiT-Tiny بنسبة 62% وDeiT-Small بنسبة 38% مع انخفاض دقيق بنسبة 0.3% فقط، مما يجعلها تتفوق بشكل كبير على الأعمال السابقة. صفحة المشروع متاحة على الرابط: https://a-vit.github.io/

AdaViT: رموز متكيفة لتحسين كفاءة محول الرؤية | الأوراق البحثية | HyperAI