Rendre les réseaux de neurones convolutifs invariants par translation à nouveau

Les réseaux de neurones convolutifs modernes ne sont pas invariants par translation, car de petits décalages ou translations de l'entrée peuvent provoquer des changements drastiques dans la sortie. Les méthodes couramment utilisées pour le sous-échantillonnage, telles que le max-pooling, la convolution avec stride et le average-pooling, ignorent le théorème d'échantillonnage. La solution bien connue en traitement du signal est l'anti-cyclage (anti-aliasing) par filtrage passe-bas avant le sous-échantillonnage. Cependant, l'insertion simple de ce module dans les réseaux profonds dégrade les performances ; par conséquent, il est rarement utilisé aujourd'hui. Nous montrons que lorsqu'il est intégré correctement, il est compatible avec les composants architecturaux existants, tels que le max-pooling et la convolution avec stride. Nous observons une \textit{précision accrue} dans la classification d'ImageNet, à travers plusieurs architectures couramment utilisées, comme ResNet, DenseNet et MobileNet, indiquant une régularisation efficace. De plus, nous constatons une \textit{meilleure généralisation}, en termes de stabilité et de robustesse face aux corruptions de l'entrée. Nos résultats démontrent que cette technique classique de traitement du signal a été injustement négligée dans les réseaux profonds modernes. Le code et les versions anti-cyclées (anti-aliased) des réseaux populaires sont disponibles à l'adresse https://richzhang.github.io/antialiased-cnns/ .