Apprentissage paramétrique rapide avec mémorisation des activations

Les réseaux de neurones formés par rétropropagation ont souvent du mal à identifier les classes qui ont été observées un nombre limité de fois. Dans des applications où la plupart des étiquettes de classe sont rares, comme la modélisation linguistique, cela peut devenir une goulote d'étranglement pour les performances. Une solution potentielle consiste à compléter le réseau avec un modèle non paramétrique rapide qui stocke les activations et les étiquettes de classe récentes dans une mémoire externe. Nous explorons une architecture simplifiée où nous traitons un sous-ensemble des paramètres du modèle comme des magasins de mémoire rapide. Cela peut aider à conserver l'information sur des intervalles de temps plus longs qu'une mémoire traditionnelle, sans nécessiter d'espace ou de calcul supplémentaires. Dans le cas de la classification d'images, nous montrons une liaison plus rapide des nouvelles classes lors d'une tâche curriculaire d'images Omniglot. Nous démontrons également une amélioration des performances pour les modèles linguistiques basés sur les mots sur des rapports d'actualités (GigaWord), des livres (Project Gutenberg) et des articles Wikipédia (WikiText-103) --- ce dernier atteignant un niveau de perplexité record de 29,2.