HyperAIHyperAI
منذ 2 أشهر

العنوان: Adaptive Sparse ViT: نحو تقليم الرموز التكيفي القابل للتعلم من خلال استغلال الذاتي للانتباه بشكل كامل

Liu, Xiangcheng ; Wu, Tianyi ; Guo, Guodong
العنوان: Adaptive Sparse ViT: نحو تقليم الرموز التكيفي القابل للتعلم من خلال استغلال الذاتي للانتباه بشكل كامل
الملخص

ظهر نموذج التحويل البصري (Vision Transformer) ك范式 جديدة في مجال الرؤية الحاسوبية، حيث أظهر أداءً ممتازًا ولكنه يرافقه تكلفة حسابية باهظة. يعتبر تقليم الرموز البصرية من الأساليب الرئيسية لضغط نماذج التحويل البصري (ViT)، وذلك بسبب حقيقة أن التعقيد يتناسب تنازعيًا مع عدد الرموز، وأن العديد من الرموز التي تحتوي فقط على مناطق الخلفية لا تسهم بشكل حقيقي في التنبؤ النهائي. تعتمد الأعمال السابقة إما على وحدات إضافية لتقييم أهمية الرموز الفردية، أو على استراتيجية تقليم بنسة ثابتة لمختلف الحالات الإدخالية. في هذا العمل، نقترح إطارًا للتقليم النادر والمتكيف للرموز بتكلفة قليلة. وبشكل خاص، نقترح آلية تقييم فئات الانتباه ذات الأهمية الموزونة برأس الانتباه بتكلفة قليلة. ثم يتم إدراج معلمات قابلة للتعلم كعتبات لتمييز الرموز المعلوماتية عن غير المهمة. من خلال مقارنة درجات انتباه الرموز وهذه العتبات، يمكننا التخلص من الرموز غير المفيدة بطريقة متدرجة وبالتالي تسريع الاستدلال. يتم تحسين هذه العتبات القابلة للتعلم أثناء التدريب الذي يراعي الميزانية لتحقيق التوازن بين الدقة والتعقيد، مما يؤدي إلى تنفيذ تكوينات التقليم المناسبة لمختلف الحالات الإدخالية. تُظهر التجارب الواسعة فعالية نهجنا. طريقتنا تحسن معدل المعالجة لنموذج DeiT-S بنسبة 50٪ وتسبب انخفاضًا طفيفًا بنسبة 0.2٪ في دقة المرتبة الأولى، مما يحقق توازنًا أفضل بين الدقة والتأخير مقارنة بالطرق السابقة.

العنوان: Adaptive Sparse ViT: نحو تقليم الرموز التكيفي القابل للتعلم من خلال استغلال الذاتي للانتباه بشكل كامل | أحدث الأوراق البحثية | HyperAI