il y a 17 jours

Séquenceur : LSTM profond pour la classification d'images

Yuki Tatsunami, Masato Taki

Résumé

Dans les récentes recherches en vision par ordinateur, l'apparition du Vision Transformer (ViT) a rapidement révolutionné diverses approches architecturales : le ViT a atteint des performances de classification d'images de pointe en exploitant l'attention auto-associative issue du traitement du langage naturel, tandis que MLP-Mixer a obtenu des performances compétitives en se fondant sur des perceptrons multicouches simples. En contraste, plusieurs études ont également suggéré que des réseaux de neurones convolutifs (CNN) soigneusement réinventés peuvent atteindre des performances avancées comparables au ViT sans recourir à ces nouvelles idées. Dans ce contexte, l'intérêt croissant porte désormais sur la nature des biais inductifs les plus adaptés à la vision par ordinateur. À cet égard, nous proposons Sequencer, une nouvelle architecture compétitive alternative au ViT, offrant une perspective originale sur ces enjeux. Contrairement au ViT, Sequencer modélise les dépendances à longue portée à l’aide de réseaux récurrents à mémoire à long terme (LSTM), plutôt que par des couches d’attention auto-associative. Nous introduisons également une version bidimensionnelle du module Sequencer, dans laquelle un LSTM est décomposé en un LSTM vertical et un LSTM horizontal afin d’améliorer les performances. Malgré sa simplicité, plusieurs expérimentations démontrent que Sequencer se distingue par des performances remarquables : Sequencer2D-L, avec 54 millions de paramètres, atteint une précision top-1 de 84,6 % uniquement sur ImageNet-1K. En outre, nous montrons qu’il possède une bonne capacité de transfert ainsi qu’une robuste adaptabilité à la résolution, même en double résolution.