RepVGG: إعادة إحياء شبكات ConvNets من نوع VGG

نقدّم معمارية بسيطة ولكنها قوية لشبكة عصبية تلافيفية، تتكوّن في مرحلة الاستنتاج (inference-time) من هيكل يشبه VGG، مكوّن بالكامل من بُنى متتالية من التلافيف 3×3 ووظائف التنشيط ReLU، بينما تمتلك النموذج في مرحلة التدريب (training-time) هيكلًا متفرّعًا متعدد الفروع. يتم تحقيق هذا الفصل بين البنية المستخدمة في التدريب والبنية المستخدمة في الاستنتاج من خلال تقنية إعادة تهيئة البنية (structural re-parameterization)، مما جعل النموذج يُسمّى RepVGG. على مجموعة بيانات ImageNet، حقق RepVGG دقة أعلى من 80% في التصنيف الأول (top-1)، وهي المرة الأولى التي يحقق فيها نموذج بسيط (plain model) هذا المستوى من الدقة، إلى أقصى معرفة لدينا. على وحدة معالجة رسومات NVIDIA 1080Ti، تعمل نماذج RepVGG بسرعة تفوق 83% مقارنة بـ ResNet-50، أو 101% مقارنة بـ ResNet-101، مع تحقيق دقة أعلى، وتوفر توازنًا ممتازًا بين الدقة والسرعة مقارنة بأفضل النماذج الحالية مثل EfficientNet وRegNet. يمكن الوصول إلى الكود والنماذج المدربة عبر الرابط: https://github.com/megvii-model/RepVGG.