CoAtNet: الجمع بين التحوير والانتباه لجميع أحجام البيانات

لقد جذبت نماذج الترانسفورمر اهتمامًا متزايدًا في مجال الرؤية الحاسوبية، لكنها ما زالت تتخلف عن الشبكات التلافيفية الأفضل حاليًا. في هذا العمل، نُظهر أن رغم أن نماذج الترانسفورمر تمتلك قدرة نموذجية أكبر، إلا أن قدرتها على التعميم قد تكون أضعف من الشبكات التلافيفية نظرًا لغياب التحيز الاستنتاجي المناسب. لدمج الفوائد الفعّالة من كلا المعماريين، نقدّم مجموعة نماذج CoAtNets (تُلفظ "كوت نتس")، وهي عائلة من النماذج الهجينة مستمدة من رأيين رئيسيين: (1) يمكن دمج التلافيف العميقة (depthwise Convolution) والانتباه الذاتي (self-Attention) بشكل طبيعي عبر انتباه نسبي بسيط؛ (2) فإن التراكيب العمودية للطبقات التلافيفية وطبقات الانتباه بطريقة منهجية تُظهر فعالية مدهشة في تحسين التعميم والقدرة والكفاءة. تُظهر التجارب أن نماذج CoAtNets تحقق أداءً من الدرجة الأولى في مختلف الظروف الموارد على مجموعات بيانات متنوعة: دون الحاجة إلى بيانات إضافية، تحقق CoAtNet دقة 86.0% في تصنيف ImageNet (التصنيف الأول)؛ عند التدريب المسبق باستخدام 13 مليون صورة من ImageNet-21K، تصل CoAtNet إلى دقة 88.56% في التصنيف الأول، مُساويةً لأداء ViT-huge الذي تم تدريبه مسبقًا على 300 مليون صورة من JFT-300M، مع استخدام 23 مرة أقل من البيانات؛ وبشكل ملحوظ، عند توسيع CoAtNet بشكل أكبر باستخدام JFT-3B، تحقق دقة 90.88% في التصنيف الأول على ImageNet، مما يُسجّل نتيجة جديدة قياسية في هذا المجال.