RADAM : Reconnaissance de textures par codage agrégé aléatoire des cartes d'activation profondes

L’analyse de texture est une tâche classique mais difficile en vision par ordinateur, pour laquelle les réseaux neuronaux profonds sont activement utilisés. La plupart des approches reposent sur la construction de modules d’agrégation de caractéristiques autour d’un modèle pré-entraîné (backbone), suivi d’un ajustage fin (fine-tuning) de la nouvelle architecture sur des tâches spécifiques de reconnaissance de textures. Dans ce travail, nous proposons une nouvelle méthode nommée \textbf{R}andom encoding of \textbf{A}ggregated \textbf{D}eep \textbf{A}ctivation \textbf{M}aps (RADAM), qui extrait des représentations texturelles riches sans jamais modifier le backbone. Cette technique consiste à encoder les sorties aux différentes profondeurs d’un réseau convolutif profond pré-entraîné à l’aide d’un Autoencodeur Aléatoire (RAE). Le RAE est entraîné localement pour chaque image à l’aide d’une solution analytique, et les poids de son décodeur sont utilisés pour construire une représentation texturelle unidimensionnelle, qui est ensuite introduite dans un SVM linéaire. Cela signifie qu’aucun ajustage fin ni rétropropagation n’est nécessaire. Nous évaluons RADAM sur plusieurs benchmarks de textures et obtenons des résultats de pointe pour différentes contraintes de budget computationnel. Nos résultats suggèrent que les backbones pré-entraînés pourraient ne pas nécessiter d’ajustage fin supplémentaire pour la reconnaissance de textures, à condition que leurs représentations apprises soient mieux encodées.