Auto-encodeurs Empilés Quoi-Où

Nous présentons une nouvelle architecture, les « auto-encodeurs empilés quoi-où » (SWWAE), qui intègre des voies discriminatives et génératives et offre une approche unifiée pour l'apprentissage supervisé, semi-supervisé et non supervisé sans recourir à l'échantillonnage pendant l'entraînement. Une instance de SWWAE utilise un réseau de neurones convolutif (Convnet) (LeCun et al. (1998)) pour encoder l'entrée, et emploie un réseau de neurones déconvolutif (Deconvnet) (Zeiler et al. (2010)) pour produire la reconstruction. La fonction objectif comprend des termes de reconstruction qui induisent que les états cachés dans le Deconvnet soient similaires à ceux du Convnet. Chaque couche de regroupement produit deux ensembles de variables : le « quoi » qui est transmis à la couche suivante, et sa variable complémentaire « où » qui est transmise à la couche correspondante dans le décodeur générateur.