Réseaux de colonnes réversibles

Nous proposons un nouveau paradigme de conception de réseaux neuronaux, nommé Réseau à Colonnes Réversibles (RevCol). Le cœur architectural de RevCol est composé de plusieurs copies de sous-réseaux, appelés colonnes, reliées entre elles par des connexions réversibles à plusieurs niveaux. Ce schéma architectural confère à RevCol un comportement très différent des réseaux conventionnels : lors de la propagation vers l'avant, les caractéristiques dans RevCol sont progressivement désenchevêtrées à mesure qu’elles traversent chaque colonne, tout en conservant intégralement leur information globale, contrairement aux autres réseaux qui la compressent ou la rejettent. Nos expérimentations montrent que les modèles RevCol inspirés des CNN atteignent des performances très compétitives sur plusieurs tâches de vision par ordinateur, telles que la classification d’images, la détection d’objets et la segmentation sémantique, notamment avec un grand budget de paramètres et de grandes bases de données. Par exemple, après une pré-formation sur ImageNet-22K, RevCol-XL atteint 88,2 % de précision sur ImageNet-1K. Avec davantage de données de pré-formation, notre modèle le plus volumineux, RevCol-H, atteint 90,0 % sur ImageNet-1K, 63,8 % d’APbox sur le jeu de validation minival de COCO pour la détection d’objets, et 61,0 % de mIoU sur la segmentation ADE20k. Selon nos connaissances, il s’agit du meilleur résultat obtenu par un modèle CNN pur (statique) sur les tâches de détection d’objets sur COCO et de segmentation sur ADE20k. En outre, en tant que schéma architectural général, RevCol peut également être intégré aux transformateurs ou à d’autres types de réseaux neuronaux, ce qui a été démontré pour améliorer les performances dans des tâches aussi bien de vision par ordinateur que de traitement du langage naturel. Nous mettons à disposition le code source et les modèles sur : https://github.com/megvii-research/RevCol