HyperAIHyperAI
منذ 2 أشهر

تجاوز الرموز الانتباهية: دمج أهمية الرموز وتنوعها لتحسين كفاءة متحولات الرؤية

Long, Sifan ; Zhao, Zhen ; Pi, Jimin ; Wang, Shengsheng ; Wang, Jingdong
تجاوز الرموز الانتباهية: دمج أهمية الرموز وتنوعها
لتحسين كفاءة متحولات الرؤية
الملخص

حققت نماذج التحويل البصري (Vision Transformers) تحسينات كبيرة في مهام بصرية مختلفة، ولكن التفاعلات التربيعية بين الرموز (tokens) تقلل بشكل كبير من كفاءة الحساب. تم اقتراح العديد من طرق التقليم لازالة الرموز الزائدة لتحقيق نماذج تحويل بصرية أكثر كفاءة مؤخرًا. ومع ذلك، ركزت الدراسات الحالية بشكل أساسي على أهمية الرمز للحفاظ على الرموز المحلية المتنبهة وتجاهلت تمامًا تنوع الرموز العالمية. في هذا البحث، نؤكد على الأهمية الحرجة لتنوع الدلالات العالمية ونقترح طريقة فعالة لفصل وتجميع الرموز يمكنها أن تأخذ في الاعتبار أهمية الرمز وتنوعه معًا عند تقليم الرموز. بناءً على انتباه رمز الفئة (class token attention)، نفصل بين الرموز المتنبهة والغير متنبهة. بالإضافة إلى الحفاظ على أبرز الرموز المحلية، نقوم بتجميع الرموز الغير متنبهة المشابهة وتطابق الرموز المتنبهة المتجانسة لتحقيق التنوع الأقصى للرموز. رغم بساطتها، حصلت طريقتنا على توازن واعد بين تعقيد النموذج ودقة التصنيف. في DeiT-S، تقليلنا للعمليات العائمة النقاط (FLOPs) بنسبة 35% مع انخفاض طفيف في الدقة بنسبة 0.2%. وبشكل لافت، استفادت طريقتنا من الحفاظ على تنوع الرموز مما مكنها من تحسين دقة DeiT-T بنسبة 0.1% بعد تقليل العمليات العائمة النقاط (FLOPs) بنسبة 40%.

تجاوز الرموز الانتباهية: دمج أهمية الرموز وتنوعها لتحسين كفاءة متحولات الرؤية | أحدث الأوراق البحثية | HyperAI