HyperAIHyperAI

Command Palette

Search for a command to run...

ال Transformers البصرية السريعة مع انتباه HiLo

Pan Zizheng ; Cai Jianfei ; Zhuang Bohan

الملخص

لقد أثارت نماذج التحويل البصري (Vision Transformers - ViTs) أكثر الإنجازات حديثة وأهمها في مجال الرؤية الحاسوبية. ومع ذلك، فإن تصاميمها الفعالة تُوجه في الغالب من خلال مقياس غير مباشر للتعقيد الحاسوبي، أي العمليات العائمة (FLOPs)، والذي يُظهر فجوة واضحة مع المقاييس المباشرة مثل معدل النقل (throughput). لذلك، نقترح استخدام التقييم السريع المباشر على المنصة المستهدفة كمبدأ تصميم لـ ViTs الفعالة. بشكل خاص، نقدم LITv2، وهو نموذج تحويل بسيط وفعال يتفوق على الطرق المتطورة الحالية في مجموعة متنوعة من أحجام النماذج المختلفة بمعدل أسرع. في قلب LITv2 يوجد آلية انتباه ذاتية جديدة، والتي أطلقنا عليها اسم HiLo. لقد استلهمت HiLo من فكرة أن الترددات العالية في الصورة تلتقط التفاصيل الدقيقة المحلية بينما تركز الترددات المنخفضة على الهياكل العالمية، بينما تتجاهل طبقة الانتباه الذاتي متعددة الرؤوس هذه الخاصية للترددين المختلفين. ولذلك، نقترح فصل الأنماط ذات التردد العالي والمنخفض في طبقة الانتباه عن طريق تقسيم الرؤوس إلى مجموعتين، حيث تقوم إحدى المجموعتين بتشفير الترددات العالية عبر الانتباه الذاتي داخل كل نافذة محلية، بينما تقوم المجموعة الأخرى بتشفير الترددات المنخفضة من خلال تنفيذ انتباه عالمي بين المفاتيح والقيم المنخفضة المتوسطة من كل نافذة وموقع الاستفسار في الخريطة المميزة للإدخال. مستفيدين من التصميم الفعال لكلتا المجموعتين، نوضح أن HiLo أفضل من آليات الانتباه الموجودة حالياً من خلال اختبار شامل لـ FLOPs والسرعة واستهلاك الذاكرة على وحدات المعالجة المركزية (CPUs) ووحدات معالجة الرسوميات (GPUs). على سبيل المثال، تكون HiLo أسرع بنسبة 1.4 مرة من انتباه تخفيض المساحة (spatial reduction attention) وأسرع بنسبة 1.6 مرة من انتباه النافذة المحلية (local window attention) على وحدات المعالجة المركزية. بفضل قوة HiLo، يعمل LITv2 كأساس قوي للمهام الرئيسية للرؤية البصرية التي تتضمن تصنيف الصور والكشف الكثيف والتقطيع. يمكن الحصول على الكود البرمجي من الرابط: https://github.com/ziplab/LITv2.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp