منذ 17 أيام

Vision Xformers: انتباه فعّال لتصنيف الصور

Pranav Jeevan, Amit Sethi

الملخص

رغم أن النماذج التحويلية (Transformers) أصبحت الهيكل العصبي المفضل لمعالجة اللغة الطبيعية، إلا أنها تتطلب كميات هائلة من بيانات التدريب، وذاكرة وحدة معالجة الرسومات (GPU)، وعمليات حسابية مقارنةً بالشبكات العصبية التلافيفية (CNNs) في مجال رؤية الحاسوب. يزداد ميكانيزم الانتباه في النماذج التحويلية تربيعياً مع طول التسلسل المدخل، بينما تُمتد الصور المُفكّكة إلى تسلسلات طويلة. بالإضافة إلى ذلك، تفتقر النماذج التحويلية إلى انحياز تحليلي (inductive bias) مناسب للصور. قمنا باختبار ثلاث تعديلات على هياكل نموذج التحويل المرئي (Vision Transformer - ViT) لتذليل هذه العيوب. أولاً، قللنا من العائق التربيعية من خلال استخدام ميكانيزمات انتباه خطية، تُعرف باسم X-formers (حيث X تمثل {Performer, Linformer, Nyströmformer})، مما أدى إلى تشكيل ما يُعرف بـ "نماذج التحويل المرئي X" (ViXs). وقد أدى هذا إلى خفض يصل إلى سبعة أضعاف في متطلبات ذاكرة وحدة معالجة الرسومات (GPU). كما قارنا أداؤها مع نموذج FNet ومشغلات المُضاعف العصبي متعدد الطبقات (multi-layer perceptron mixers)، مما ساهم في تقليل مزيد من متطلبات ذاكرة GPU. ثانيًا، أدخلنا انحيازًا تحليليًا مناسبًا للصور من خلال استبدال طبقة التضمين الخطية الابتدائية بطبقات تلافيفية في ViX، مما زاد بشكل كبير من دقة التصنيف دون زيادة حجم النموذج. ثالثًا، استبدلنا تضمينات الموضع القابلة للتعلم ذات الأبعاد الواحدة (1D position embeddings) في ViT بـ "تَضمينات الموضع الدوّارة" (Rotary Position Embedding - RoPE)، مما أدى إلى تحسين دقة التصنيف عند الحفاظ على نفس حجم النموذج. نعتقد أن دمج هذه التحسينات يمكن أن يُ democratize (يُعمّق تبنيه) النماذج التحويلية، مما يجعلها متاحة للعديد من الباحثين والمستخدمين الذين يواجهون قيودًا في البيانات أو الموارد الحاسوبية.