UniRepLKNet : Un ConvNet à grand noyau universel pour la perception audio, vidéo, nuage de points, séries temporelles et reconnaissance d’images

Les réseaux de neurones convolutifs à noyaux larges (ConvNets) ont récemment suscité un vif intérêt scientifique, mais deux problèmes critiques non résolus nécessitent une investigation approfondie. 1) Les architectures des ConvNets à noyaux larges existants s'inspirent largement des principes de conception des ConvNets classiques ou des transformateurs, tandis que la conception architecturale spécifique aux ConvNets à noyaux larges reste largement sous-étudiée. 2) Alors que les transformateurs ont dominé plusieurs modalités, il reste à établir si les ConvNets possèdent également une capacité universelle de perception forte au-delà du domaine visuel. Dans cet article, nous apportons des contributions sur deux plans. 1) Nous proposons quatre principes architecturaux pour la conception de ConvNets à noyaux larges, dont le cœur réside dans l’exploitation des caractéristiques fondamentales des grands noyaux, qui les distinguent des petits noyaux : ils perçoivent un champ large sans nécessiter une profondeur élevée. En suivant ces principes, le ConvNet à noyaux larges que nous proposons atteint des performances de pointe en reconnaissance d’images (88,0 % d’exactitude sur ImageNet, 55,6 % de mIoU sur ADE20K, et 56,4 % d’AP pour les boîtes sur COCO), démontrant une meilleure performance et une vitesse supérieure par rapport aux récents modèles concurrents puissants. 2) Nous mettons en évidence que les grands noyaux sont la clé pour débloquer les performances exceptionnelles des ConvNets dans des domaines où ils n’étaient initialement pas performants. Grâce à des prétraitements adaptés aux modalités, le modèle proposé atteint des performances de pointe sur des tâches de prévision de séries temporelles et de reconnaissance audio, même sans personnalisation architecturale spécifique à la modalité. Tous les codes et modèles sont disponibles publiquement sur GitHub et Huggingface.