HyperAIHyperAI

Command Palette

Search for a command to run...

تجاوز الرموز الانتباهية: دمج أهمية الرموز وتنوعها لتحسين كفاءة متحولات الرؤية

Long Sifan ; Zhao Zhen ; Pi Jimin ; Wang Shengsheng ; Wang Jingdong

الملخص

حققت نماذج التحويل البصري (Vision Transformers) تحسينات كبيرة في مهام بصرية مختلفة، ولكن التفاعلات التربيعية بين الرموز (tokens) تقلل بشكل كبير من كفاءة الحساب. تم اقتراح العديد من طرق التقليم لازالة الرموز الزائدة لتحقيق نماذج تحويل بصرية أكثر كفاءة مؤخرًا. ومع ذلك، ركزت الدراسات الحالية بشكل أساسي على أهمية الرمز للحفاظ على الرموز المحلية المتنبهة وتجاهلت تمامًا تنوع الرموز العالمية. في هذا البحث، نؤكد على الأهمية الحرجة لتنوع الدلالات العالمية ونقترح طريقة فعالة لفصل وتجميع الرموز يمكنها أن تأخذ في الاعتبار أهمية الرمز وتنوعه معًا عند تقليم الرموز. بناءً على انتباه رمز الفئة (class token attention)، نفصل بين الرموز المتنبهة والغير متنبهة. بالإضافة إلى الحفاظ على أبرز الرموز المحلية، نقوم بتجميع الرموز الغير متنبهة المشابهة وتطابق الرموز المتنبهة المتجانسة لتحقيق التنوع الأقصى للرموز. رغم بساطتها، حصلت طريقتنا على توازن واعد بين تعقيد النموذج ودقة التصنيف. في DeiT-S، تقليلنا للعمليات العائمة النقاط (FLOPs) بنسبة 35% مع انخفاض طفيف في الدقة بنسبة 0.2%. وبشكل لافت، استفادت طريقتنا من الحفاظ على تنوع الرموز مما مكنها من تحسين دقة DeiT-T بنسبة 0.1% بعد تقليل العمليات العائمة النقاط (FLOPs) بنسبة 40%.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp