HyperAIHyperAI
il y a 9 jours

Vers des sous-réseaux sans redondance en apprentissage continu

Cheng Chen, Jingkuan Song, LianLi Gao, Heng Tao Shen
Vers des sous-réseaux sans redondance en apprentissage continu
Résumé

L'oubli catastrophique (CF) constitue un problème majeur dans l'apprentissage continu. L'isolation des paramètres attaque ce défi en masquant un sous-réseau pour chaque tâche afin de limiter l'interférence avec les tâches antérieures. Toutefois, ces sous-réseaux sont construits en se basant sur la magnitude des poids, ce qui ne correspond pas nécessairement à leur importance réelle, entraînant ainsi la conservation de poids peu pertinents et la création de sous-réseaux redondants. Pour surmonter cette limitation, inspiré par le principe du goulot d'étranglement d'information, qui vise à éliminer la redondance entre couches adjacentes du réseau, nous proposons \textbf{\underline{I}nformation \underline{B}ottleneck \underline{M}asked sub-network (IBM)} afin d'éliminer la redondance à l'intérieur des sous-réseaux. Plus précisément, IBM accumule l'information pertinente dans les poids essentiels afin de construire des sous-réseaux exempts de redondance, non seulement en atténuant efficacement le CF grâce au gel des sous-réseaux, mais aussi en facilitant l'apprentissage des nouvelles tâches grâce au transfert de connaissances précieuses. En outre, IBM décompose les représentations cachées pour automatiser le processus de construction et le rendre plus flexible. Des expérimentations étendues démontrent que IBM surpasse de manière cohérente les méthodes de pointe. Notamment, IBM dépasse la méthode d'isolation des paramètres la plus avancée, tout en réduisant de 70 % le nombre de paramètres dans les sous-réseaux et de 80 % le temps d'entraînement.