HyperAIHyperAI
منذ 17 أيام

ConViT: تحسين نماذج التحويل البصري من خلال التحيّزات الاستدلالية التلقائية الناعمة للتحويلات التفاضلية

Stéphane d&#39, Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, Levent Sagun
ConViT: تحسين نماذج التحويل البصري من خلال التحيّزات الاستدلالية التلقائية الناعمة للتحويلات التفاضلية
الملخص

أثبتت المعماريات التلافيفية (Convolutional architectures) نجاحًا كبيرًا في المهام المرتبطة بالرؤية الحاسوبية. إن التحيّزات الاستقرائية الثابتة التي تمتلكها تُمكّن من التعلم بكفاءة عالية من حيث العينات، ولكنها تأتي على حساب حد أقصى محتمل للإنتاجية. أما نماذج التحويل البصري (Vision Transformers - ViTs)، فهي تعتمد على طبقات انتباه ذاتي أكثر مرونة، وقد أُظهر مؤخرًا أنها تفوق نماذج الشبكات العصبية التلافيفية (CNNs) في تصنيف الصور. ومع ذلك، فإنها تتطلب تدريبًا مسبقًا مكلفًا على مجموعات بيانات خارجية كبيرة، أو استخلاصًا (distillation) من شبكات تلافيفية مُدرّبة مسبقًا. في هذه الورقة، نطرح السؤال التالي: هل من الممكن دمج المزايا المتميزة لهذه المعماريات مع تجنب عيوب كل منها؟ من أجل ذلك، نقدّم ما يُعرف بـ "الانتباه الذاتي الموقعي المُدار (gated positional self-attention - GPSA)"، وهي صيغة من صيغ الانتباه الموقعي التي يمكن تزويدها بتحيّز استقرائي "ناعم" يشبه التلافيف. نبدأ بتهيئة طبقات GPSA لمحاكاة الترابط المحلي الذي تتميز به الطبقات التلافيفية، ثم نمنح كل رأس انتباه حرية التحرر من هذا الترابط من خلال تعديل معامل توجيه (gating parameter) يُنظّم مدى الانتباه المُعطى للمعلومات المكانية مقابل المعلومات المحتوى. النتيجة هي معمارية ViT تشبه التلافيف (ConViT)، والتي تفوق نموذج DeiT في تصنيف ImageNet، مع تحسين ملحوظ في كفاءة استخدام العينات. ونواصل بدراسة دور الترابط المكاني في عملية التعلّم، من خلال قياس أولًا مدى تشجيعه في طبقات الانتباه الذاتي التقليدية، ثم تحليل كيف يتم التغلب عليه في طبقات GPSA. وفي الختام، نقدّم مجموعة من التحليلات التجريبيّة (ablations) لفهم أعمق لنجاح معمارية ConViT. تم إتاحة الكود والنماذج الخاصة بنا بشكل عام عبر الرابط التالي: https://github.com/facebookresearch/convit.

ConViT: تحسين نماذج التحويل البصري من خلال التحيّزات الاستدلالية التلقائية الناعمة للتحويلات التفاضلية | أحدث الأوراق البحثية | HyperAI