HyperAIHyperAI

Command Palette

Search for a command to run...

Vision Xformers: انتباه فعّال لتصنيف الصور

Pranav Jeevan Amit Sethi

الملخص

رغم أن النماذج التحويلية (Transformers) أصبحت الهيكل العصبي المفضل لمعالجة اللغة الطبيعية، إلا أنها تتطلب كميات هائلة من بيانات التدريب، وذاكرة وحدة معالجة الرسومات (GPU)، وعمليات حسابية مقارنةً بالشبكات العصبية التلافيفية (CNNs) في مجال رؤية الحاسوب. يزداد ميكانيزم الانتباه في النماذج التحويلية تربيعياً مع طول التسلسل المدخل، بينما تُمتد الصور المُفكّكة إلى تسلسلات طويلة. بالإضافة إلى ذلك، تفتقر النماذج التحويلية إلى انحياز تحليلي (inductive bias) مناسب للصور. قمنا باختبار ثلاث تعديلات على هياكل نموذج التحويل المرئي (Vision Transformer - ViT) لتذليل هذه العيوب. أولاً، قللنا من العائق التربيعية من خلال استخدام ميكانيزمات انتباه خطية، تُعرف باسم X-formers (حيث X تمثل {Performer, Linformer, Nyströmformer})، مما أدى إلى تشكيل ما يُعرف بـ "نماذج التحويل المرئي X" (ViXs). وقد أدى هذا إلى خفض يصل إلى سبعة أضعاف في متطلبات ذاكرة وحدة معالجة الرسومات (GPU). كما قارنا أداؤها مع نموذج FNet ومشغلات المُضاعف العصبي متعدد الطبقات (multi-layer perceptron mixers)، مما ساهم في تقليل مزيد من متطلبات ذاكرة GPU. ثانيًا، أدخلنا انحيازًا تحليليًا مناسبًا للصور من خلال استبدال طبقة التضمين الخطية الابتدائية بطبقات تلافيفية في ViX، مما زاد بشكل كبير من دقة التصنيف دون زيادة حجم النموذج. ثالثًا، استبدلنا تضمينات الموضع القابلة للتعلم ذات الأبعاد الواحدة (1D position embeddings) في ViT بـ "تَضمينات الموضع الدوّارة" (Rotary Position Embedding - RoPE)، مما أدى إلى تحسين دقة التصنيف عند الحفاظ على نفس حجم النموذج. نعتقد أن دمج هذه التحسينات يمكن أن يُ democratize (يُعمّق تبنيه) النماذج التحويلية، مما يجعلها متاحة للعديد من الباحثين والمستخدمين الذين يواجهون قيودًا في البيانات أو الموارد الحاسوبية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp