Command Palette
Search for a command to run...
توسيع حجم نوى الشبكة العصبية التلافيفية إلى 31×31: إعادة النظر في تصميم النوى الكبيرة في الشبكات العصبية التلافيفية
توسيع حجم نوى الشبكة العصبية التلافيفية إلى 31×31: إعادة النظر في تصميم النوى الكبيرة في الشبكات العصبية التلافيفية
Xiaohan Ding Xiangyu Zhang Yizhuang Zhou Jungong Han Guiguang Ding Jian Sun
الملخص
نعيد النظر في تصميم النوى الكبيرة في الشبكات العصبية التلافيفية الحديثة (CNNs). مستوحى من التطورات الأخيرة في نماذج التحويل البصري (ViTs)، نُظهر في هذه الورقة أن استخدام عدد قليل من النوى التلافيفية الكبيرة بدلًا من تجميع نوى صغيرة يمكن أن يكون نموذجًا أكثر قوة. واقترحنا خمسة مبادئ توجيهية، مثل تطبيق التحويلات التلافيفية العميقة المُعاد تهيئةً (re-parameterized large depth-wise convolutions)، لتصميم شبكات CNN فعّالة ذات أداء عالٍ باستخدام نوى كبيرة. ووفقًا لهذه المبادئ، نقترح "RepLKNet"، وهي بنية CNN نقية تمتلك حجم نواة يصل إلى 31×31، مقارنةً بالحجم الشائع 3×3. تُقلل RepLKNet الفجوة الأداء بين الشبكات التلافيفية ونماذج ViTs بشكل كبير، حيث تحقق نتائج مماثلة أو أفضل من نموذج Swin Transformer على ImageNet وعلى عدد من المهام التالية المُحددة، مع زمن تأخير أقل. كما تُظهر RepLKNet قابلية توسعة جيدة تجاه البيانات الكبيرة والنماذج الكبيرة، حيث حققت دقة 87.8% في التصنيف الأولي على ImageNet و56.0% في مقياس mIoU على ADE20K، وهي نتائج تنافسية للغاية ضمن أحدث النماذج ذات الحجم المماثل. كما كشفت دراستنا أن الشبكات التلافيفية ذات النوى الكبيرة تمتلك مجالات استقبال فعّالة أكبر بكثير مقارنةً بالشبكات ذات النوى الصغيرة، وتتمتع بانحياز شكل أعلى من انحياز النسيج. الكود والنموذج متاحان على: https://github.com/megvii-research/RepLKNet.