HyperAIHyperAI
منذ 2 أشهر

هروب من نموذج البيانات الكبيرة باستخدام المتحولات المضغوطة

Ali Hassani; Steven Walton; Nikhil Shah; Abulikemu Abuduweili; Jiachen Li; Humphrey Shi
هروب من نموذج البيانات الكبيرة باستخدام المتحولات المضغوطة
الملخص

مع انتشار نماذج الترانسفورمر كمقياس قياسي لمعالجة اللغة، وتطورها في مجال الرؤية الحاسوبية، شهدنا زيادة متناسبة في حجم المعلمات وكمية بيانات التدريب. أصبح الكثيرون يعتقدون أن هذه الزيادة تجعل النماذج الترانسفورمر غير مناسبة للبيانات الصغيرة. يؤدي هذا الاتجاه إلى مخاوف مثل: ندرة البيانات في بعض المجالات العلمية واستبعاد الأشخاص ذوي الموارد المحدودة من البحث في هذا المجال. في هذا البحث، نهدف إلى تقديم نهج للتعلم على نطاق صغير من خلال تقديم الترانسفورمر المدمجة (Compact Transformers). نظهر لأول مرة أنه مع الحجم المناسب والتوكنزرة الإقحامية (convolutional tokenization)، يمكن للترانسفورمر تجنب الانطباع الزائد وتتفوق على أحدث النماذج CNN في مجموعات البيانات الصغيرة. تتميز نماذجنا بالمرونة فيما يتعلق بحجم النموذج، ويمكن أن تحتوي على أقل من 0.28 مليون معلمة مع تحقيق نتائج تنافسية. يمكن لأفضل نموذج لدينا الوصول إلى دقة 98٪ عند التدريب من الصفر على CIFAR-10 باستخدام فقط 3.7 مليون معلمة، وهو تحسن كبير في كفاءة البيانات مقارنة بالنماذج السابقة القائمة على الترانسفورمر، حيث يكون حجمها أصغر بمقدار أكثر من 10 مرات وأصغر بنسبة 15٪ من ResNet50 مع تحقيق أداء مشابه. كما أن CCT تتفوق على العديد من النماذج الحديثة القائمة على CNN وحتى بعض النماذج الحديثة القائمة على NAS. بالإضافة إلى ذلك، حققنا نتيجة جديدة هي الأفضل حتى الآن (SOTA) على Flowers-102 بدقة بلغت 99.76٪ في الفئة الأولى، وحسّنّا الأداء الأساسي الموجود على ImageNet (بدقة 82.71٪ باستخدام 29٪ فقط من عدد المعلمات التي يستخدمها ViT)، وكذلك في مهمات المعالجة اللغوية الطبيعية (NLP). تصميمنا البسيط والمدمج للترانسفورمر يجعل دراستها أكثر إمكانية بالنسبة للأفراد ذوي الموارد الحاسوبية المحدودة أو الذين يعملون مع مجموعات بيانات صغيرة، بينما يوسع جهود البحث الحالية في مجال الترانسفورمر ذات الكفاءة العالية في استخدام البيانات. رمز البرمجيات والنماذج المدربة مسبقًا متاحة بشكل عام عبر الرابط https://github.com/SHI-Labs/Compact-Transformers.

هروب من نموذج البيانات الكبيرة باستخدام المتحولات المضغوطة | أحدث الأوراق البحثية | HyperAI