Surmonter l'oubli catastrophique avec une attention forte à la tâche

L'oubli catastrophique se produit lorsque un réseau neuronal perd les informations acquises lors d'une tâche précédente après avoir été formé sur des tâches ultérieures. Ce problème reste un obstacle pour les systèmes d'intelligence artificielle dotés de capacités d'apprentissage séquentiel. Dans cet article, nous proposons un mécanisme d'attention forte basé sur les tâches qui préserve les informations des tâches antérieures sans affecter l'apprentissage de la tâche en cours. Un masque d'attention forte est appris simultanément à chaque tâche, par descente de gradient stochastique, et les masques précédents sont utilisés pour conditionner cet apprentissage. Nous montrons que le mécanisme proposé est efficace pour réduire l'oubli catastrophique, diminuant les taux actuels de 45 à 80 %. Nous démontrons également qu'il est robuste face à différents choix d'hyperparamètres et qu'il offre plusieurs capacités de surveillance. Cette approche permet de contrôler à la fois la stabilité et la compacité des connaissances apprises, ce qui, selon nous, la rend également intéressante pour les applications d'apprentissage en ligne ou de compression de réseau.