Command Palette
Search for a command to run...
Die Skalierung Ihrer Kerne auf 31×31: Eine Neubewertung der großen Kernel-Designs in CNNs
Die Skalierung Ihrer Kerne auf 31×31: Eine Neubewertung der großen Kernel-Designs in CNNs
Xiaohan Ding Xiangyu Zhang Yizhuang Zhou Jungong Han Guiguang Ding Jian Sun
Zusammenfassung
Wir überprüfen erneut die Gestaltung großer Faltkernels in modernen convolutionalen neuronalen Netzen (CNNs). Angeregt durch jüngste Fortschritte bei Vision-Transformern (ViTs) zeigen wir in diesem Artikel, dass die Verwendung weniger großer Faltkernels anstelle einer Kette kleiner Kernels ein leistungsfähigeres Paradigma sein kann. Wir formulieren fünf Leitlinien, beispielsweise die Anwendung re-parameterisierter großer Depth-wise-Faltungen, um effiziente, hochleistungsfähige CNNs mit großen Kernels zu entwerfen. Unter Beachtung dieser Leitlinien stellen wir RepLKNet vor, eine reine CNN-Architektur mit einem Kernel-Größe von bis zu 31×31 – im Gegensatz zu den üblichen 3×3-Kernels. RepLKNet schließt die Leistungsunterschiede zwischen CNNs und ViTs erheblich ab, erzielt beispielsweise auf ImageNet und mehreren typischen Nachfolgeaufgaben Ergebnisse, die mit oder sogar besser sind als die des Swin-Transformers, und zwar mit geringerer Latenz. Zudem zeigt RepLKNet eine hervorragende Skalierbarkeit bei großen Datensätzen und großen Modellen und erreicht eine Top-1-Accuracy von 87,8 % auf ImageNet sowie eine mIoU von 56,0 % auf ADE20K – Werte, die unter den derzeitigen State-of-the-Art-Modellen mit vergleichbarer Größe äußerst konkurrenzfähig sind. Unsere Studie offenbart weiterhin, dass im Gegensatz zu CNNs mit kleinen Kernels CNNs mit großen Kernels deutlich größere effektive Empfangsfelder und eine höhere Form-Bias statt Textur-Bias aufweisen. Code und Modelle sind unter https://github.com/megvii-research/RepLKNet verfügbar.