Command Palette
Search for a command to run...
Augmenter la taille de vos noyaux à 31×31 : Une nouvelle révision de la conception des grands noyaux dans les CNN
Augmenter la taille de vos noyaux à 31×31 : Une nouvelle révision de la conception des grands noyaux dans les CNN
Xiaohan Ding Xiangyu Zhang Yizhuang Zhou Jungong Han Guiguang Ding Jian Sun
Résumé
Nous revisitons la conception des grands noyaux dans les réseaux de neurones convolutifs modernes (CNN). Inspirés par les avancées récentes des vision transformers (ViTs), nous démontrons dans cet article qu'utiliser quelques noyaux convolutifs de grande taille au lieu d'une pile de petits noyaux peut constituer un paradigme plus puissant. Nous proposons cinq principes directeurs, par exemple l'application de convolutions profondes à largeur réparées (re-parameterized large depth-wise convolutions), afin de concevoir des CNN à grands noyaux efficaces et à haute performance. En suivant ces principes, nous introduisons RepLKNet, une architecture CNN pure dont la taille du noyau atteint 31×31, en contraste avec la taille courante de 3×3. RepLKNet réduit considérablement l'écart de performance entre les CNN et les ViTs : il obtient des résultats comparables ou supérieurs à ceux du Swin Transformer sur ImageNet et sur plusieurs tâches descendantes typiques, tout en offrant une latence plus faible. RepLKNet se distingue également par une excellente scalabilité sur de grands ensembles de données et des modèles volumineux, atteignant 87,8 % de précision top-1 sur ImageNet et 56,0 % de mIoU sur ADE20K, des performances très compétitives parmi les états de l'art pour des tailles de modèle similaires. Notre étude révèle également que, contrairement aux CNN à petits noyaux, les CNN à grands noyaux présentent des champs réceptifs effectifs bien plus larges, ainsi qu'une forte biais forme plutôt qu'un biais texture. Code et modèles disponibles sur : https://github.com/megvii-research/RepLKNet.