HyperAIHyperAI

Command Palette

Search for a command to run...

UniRepLKNet : Un ConvNet à grand noyau universel pour la perception audio, vidéo, nuage de points, séries temporelles et reconnaissance d’images

Xiaohan Ding Yiyuan Zhang Yixiao Ge Sijie Zhao Lin Song Xiangyu Yue Ying Shan

Résumé

Les réseaux de neurones convolutifs à noyaux larges (ConvNets) ont récemment suscité un vif intérêt scientifique, mais deux problèmes critiques non résolus nécessitent une investigation approfondie. 1) Les architectures des ConvNets à noyaux larges existants s'inspirent largement des principes de conception des ConvNets classiques ou des transformateurs, tandis que la conception architecturale spécifique aux ConvNets à noyaux larges reste largement sous-étudiée. 2) Alors que les transformateurs ont dominé plusieurs modalités, il reste à établir si les ConvNets possèdent également une capacité universelle de perception forte au-delà du domaine visuel. Dans cet article, nous apportons des contributions sur deux plans. 1) Nous proposons quatre principes architecturaux pour la conception de ConvNets à noyaux larges, dont le cœur réside dans l’exploitation des caractéristiques fondamentales des grands noyaux, qui les distinguent des petits noyaux : ils perçoivent un champ large sans nécessiter une profondeur élevée. En suivant ces principes, le ConvNet à noyaux larges que nous proposons atteint des performances de pointe en reconnaissance d’images (88,0 % d’exactitude sur ImageNet, 55,6 % de mIoU sur ADE20K, et 56,4 % d’AP pour les boîtes sur COCO), démontrant une meilleure performance et une vitesse supérieure par rapport aux récents modèles concurrents puissants. 2) Nous mettons en évidence que les grands noyaux sont la clé pour débloquer les performances exceptionnelles des ConvNets dans des domaines où ils n’étaient initialement pas performants. Grâce à des prétraitements adaptés aux modalités, le modèle proposé atteint des performances de pointe sur des tâches de prévision de séries temporelles et de reconnaissance audio, même sans personnalisation architecturale spécifique à la modalité. Tous les codes et modèles sont disponibles publiquement sur GitHub et Huggingface.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp