Command Palette
Search for a command to run...
ال Transformers البصرية السريعة مع انتباه HiLo
ال Transformers البصرية السريعة مع انتباه HiLo
Pan Zizheng ; Cai Jianfei ; Zhuang Bohan
الملخص
لقد أثارت نماذج التحويل البصري (Vision Transformers - ViTs) أكثر الإنجازات حديثة وأهمها في مجال الرؤية الحاسوبية. ومع ذلك، فإن تصاميمها الفعالة تُوجه في الغالب من خلال مقياس غير مباشر للتعقيد الحاسوبي، أي العمليات العائمة (FLOPs)، والذي يُظهر فجوة واضحة مع المقاييس المباشرة مثل معدل النقل (throughput). لذلك، نقترح استخدام التقييم السريع المباشر على المنصة المستهدفة كمبدأ تصميم لـ ViTs الفعالة. بشكل خاص، نقدم LITv2، وهو نموذج تحويل بسيط وفعال يتفوق على الطرق المتطورة الحالية في مجموعة متنوعة من أحجام النماذج المختلفة بمعدل أسرع. في قلب LITv2 يوجد آلية انتباه ذاتية جديدة، والتي أطلقنا عليها اسم HiLo. لقد استلهمت HiLo من فكرة أن الترددات العالية في الصورة تلتقط التفاصيل الدقيقة المحلية بينما تركز الترددات المنخفضة على الهياكل العالمية، بينما تتجاهل طبقة الانتباه الذاتي متعددة الرؤوس هذه الخاصية للترددين المختلفين. ولذلك، نقترح فصل الأنماط ذات التردد العالي والمنخفض في طبقة الانتباه عن طريق تقسيم الرؤوس إلى مجموعتين، حيث تقوم إحدى المجموعتين بتشفير الترددات العالية عبر الانتباه الذاتي داخل كل نافذة محلية، بينما تقوم المجموعة الأخرى بتشفير الترددات المنخفضة من خلال تنفيذ انتباه عالمي بين المفاتيح والقيم المنخفضة المتوسطة من كل نافذة وموقع الاستفسار في الخريطة المميزة للإدخال. مستفيدين من التصميم الفعال لكلتا المجموعتين، نوضح أن HiLo أفضل من آليات الانتباه الموجودة حالياً من خلال اختبار شامل لـ FLOPs والسرعة واستهلاك الذاكرة على وحدات المعالجة المركزية (CPUs) ووحدات معالجة الرسوميات (GPUs). على سبيل المثال، تكون HiLo أسرع بنسبة 1.4 مرة من انتباه تخفيض المساحة (spatial reduction attention) وأسرع بنسبة 1.6 مرة من انتباه النافذة المحلية (local window attention) على وحدات المعالجة المركزية. بفضل قوة HiLo، يعمل LITv2 كأساس قوي للمهام الرئيسية للرؤية البصرية التي تتضمن تصنيف الصور والكشف الكثيف والتقطيع. يمكن الحصول على الكود البرمجي من الرابط: https://github.com/ziplab/LITv2.