PCANet : Une Base de Référence Simple pour l'Apprentissage Profond en Classification d'Images ?

Dans cette étude, nous proposons un réseau de deep learning très simple pour la classification d'images, composé uniquement des éléments de traitement de données les plus basiques : une analyse en composantes principales (ACP) en cascade, un hachage binaire et des histogrammes par blocs. Dans l'architecture proposée, l'ACP est utilisée pour apprendre des banques de filtres multistades. Elle est suivie d'un hachage binaire simple et d'histogrammes par blocs pour l'indexation et le regroupement. Cette architecture est donc appelée réseau ACP (PCANet) et peut être conçue et apprise de manière extrêmement facile et efficace. Pour comparaison et meilleure compréhension, nous introduisons également deux variantes simples du PCANet, à savoir le RandNet et le LDANet. Ils partagent la même topologie que le PCANet, mais leurs filtres en cascade sont soit sélectionnés aléatoirement, soit appris à partir de l'analyse discriminante linéaire (LDA). Nous avons testé ces réseaux de base sur de nombreux jeux de données visuels de référence pour différentes tâches, telles que LFW pour la vérification faciale, MultiPIE, Extended Yale B, AR et FERET pour la reconnaissance faciale, ainsi que MNIST pour la reconnaissance de chiffres manuscrits. De manière surprenante, pour toutes les tâches, ce modèle PCANet apparemment naïf se compare favorablement aux caractéristiques les plus avancées, qu'elles soient préfixées, hautement élaborées ou soigneusement apprises (par des DNN). Plus surprenant encore, il établit de nouveaux records pour de nombreuses tâches de classification dans les jeux de données Extended Yale B, AR et FERET ainsi que dans les variations MNIST. Des expériences supplémentaires sur d'autres jeux de données publics démontrent également le potentiel du PCANet comme solution simple mais hautement compétitive pour la classification texturale et la reconnaissance d'objets.