HyperAIHyperAI

Command Palette

Search for a command to run...

ConViT: تحسين نماذج التحويل البصري من خلال التحيّزات الاستدلالية التلقائية الناعمة للتحويلات التفاضلية

Stéphane d&#39 Ascoli Hugo Touvron Matthew Leavitt Ari Morcos Giulio Biroli Levent Sagun

الملخص

أثبتت المعماريات التلافيفية (Convolutional architectures) نجاحًا كبيرًا في المهام المرتبطة بالرؤية الحاسوبية. إن التحيّزات الاستقرائية الثابتة التي تمتلكها تُمكّن من التعلم بكفاءة عالية من حيث العينات، ولكنها تأتي على حساب حد أقصى محتمل للإنتاجية. أما نماذج التحويل البصري (Vision Transformers - ViTs)، فهي تعتمد على طبقات انتباه ذاتي أكثر مرونة، وقد أُظهر مؤخرًا أنها تفوق نماذج الشبكات العصبية التلافيفية (CNNs) في تصنيف الصور. ومع ذلك، فإنها تتطلب تدريبًا مسبقًا مكلفًا على مجموعات بيانات خارجية كبيرة، أو استخلاصًا (distillation) من شبكات تلافيفية مُدرّبة مسبقًا. في هذه الورقة، نطرح السؤال التالي: هل من الممكن دمج المزايا المتميزة لهذه المعماريات مع تجنب عيوب كل منها؟ من أجل ذلك، نقدّم ما يُعرف بـ "الانتباه الذاتي الموقعي المُدار (gated positional self-attention - GPSA)"، وهي صيغة من صيغ الانتباه الموقعي التي يمكن تزويدها بتحيّز استقرائي "ناعم" يشبه التلافيف. نبدأ بتهيئة طبقات GPSA لمحاكاة الترابط المحلي الذي تتميز به الطبقات التلافيفية، ثم نمنح كل رأس انتباه حرية التحرر من هذا الترابط من خلال تعديل معامل توجيه (gating parameter) يُنظّم مدى الانتباه المُعطى للمعلومات المكانية مقابل المعلومات المحتوى. النتيجة هي معمارية ViT تشبه التلافيف (ConViT)، والتي تفوق نموذج DeiT في تصنيف ImageNet، مع تحسين ملحوظ في كفاءة استخدام العينات. ونواصل بدراسة دور الترابط المكاني في عملية التعلّم، من خلال قياس أولًا مدى تشجيعه في طبقات الانتباه الذاتي التقليدية، ثم تحليل كيف يتم التغلب عليه في طبقات GPSA. وفي الختام، نقدّم مجموعة من التحليلات التجريبيّة (ablations) لفهم أعمق لنجاح معمارية ConViT. تم إتاحة الكود والنماذج الخاصة بنا بشكل عام عبر الرابط التالي: https://github.com/facebookresearch/convit.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp