Command Palette
Search for a command to run...
NASViT: بحث في البنية العصبية لتحويلات الرؤية الفعالة مع تدريب مسبق مُدرك لصراع التدرج
NASViT: بحث في البنية العصبية لتحويلات الرؤية الفعالة مع تدريب مسبق مُدرك لصراع التدرج
Vikas Chandra Qiang Liu Yuandong Tian Zhicheng Yan Xinlei Chen Meng Li Dilin Wang Chengyue Gong
الملخص
تصميم نماذج ناقلات الرؤية (ViTs) دقيقة وفعالة يُعد مهمة بالغة الأهمية، لكنها تواجه صعوبات كبيرة. تتيح طريقة البحث عن الهيكل العصبي ذات اللحظة الواحدة (NAS) القائمة على النموذج الفائق (Supernet) تحسينًا سريعًا للهيكل، وقد حققت نتائج متفوقة (SOTA) في الشبكات العصبية التلافيفية (CNNs). ومع ذلك، فإن تطبيق هذه الطريقة مباشرة لتحسين نماذج ViTs يؤدي إلى أداء ضعيف، بل وأسوأ من تدريب نموذج ViT فردي واحد. في هذا العمل، نلاحظ أن السبب في الأداء الضعيف يكمن في مشكلة تناقض التدرجات (Gradient Conflict): إذ تتعارض تدرجات الشبكات الفرعية المختلفة مع تدرجات النموذج الفائق بشكل أكثر حدة في نماذج ViTs مقارنةً بـ CNNs، ما يؤدي إلى توقف مبكر في التدريب وتحقيق تقارب أقل كفاءة. ولتخفيف هذه المشكلة، نقترح سلسلة من التقنيات، تشمل خوارزمية تProjection التدرجات، وتصميمًا قابلاً للتبديل لتكبير الطبقات، ووصفة تدريب مبسطة لتوسيع البيانات والتنظيم. تُحسّن هذه التقنيات بشكل كبير من تقارب جميع الشبكات الفرعية وأدائها. وتحقيقًا لنتائج متميزة، تم اكتشاف عائلة نماذج ViT الهجينة، التي أطلقنا عليها اسم NASViT، والتي تحقق دقة أعلى بنسبة 78.2% إلى 81.8% على ImageNet بحدود من 200 مليون إلى 800 مليون عملية حسابية (FLOPs)، وتتفوق على جميع النماذج السابقة من CNNs وViTs، بما في ذلك AlphaNet وLeViT. وعند نقل هذه النماذج إلى مهام التصنيف الدلالي (Semantic Segmentation)، تتفوق نماذج NASViT على النماذج السابقة على كلا مجموعتي بيانات Cityscapes وADE20K، حيث تحقق دقة متوسطة لمؤشر IoU (mIoU) تبلغ 73.2% و37.9% على التوالي، وباستخدام فقط 5G FLOPs.