Peut-on remplacer l'attention par la mémoire active ?

Plusieurs mécanismes permettant de focaliser l'attention d'un réseau neuronal sur des parties sélectionnées de son entrée ou de sa mémoire ont été utilisés avec succès dans les modèles d'apprentissage profond ces dernières années. L'attention a amélioré la classification d'images, la légendage d'images, la reconnaissance vocale, les modèles génératifs et les tâches algorithmiques, mais elle a probablement eu le plus grand impact sur la traduction automatique neuronale.Récemment, des améliorations similaires ont été obtenues en utilisant des mécanismes alternatifs qui ne se concentrent pas sur une seule partie de la mémoire, mais opèrent sur l'ensemble de celle-ci en parallèle et de manière uniforme. Un tel mécanisme, que nous appelons mémoire active, a surpassé l'attention dans les tâches algorithmiques, le traitement d'images et la modélisation générative.Cependant, jusqu'à présent, la mémoire active n'a pas surpassé l'attention pour la plupart des tâches de traitement du langage naturel, en particulier pour la traduction automatique. Dans cet article, nous analysons cette lacune et proposons un modèle étendu de mémoire active qui égale les modèles d'attention existants en traduction automatique neuronale et généralise mieux aux phrases plus longues. Nous examinons ce modèle et expliquons pourquoi les précédents modèles de mémoire active n'ont pas réussi. Enfin, nous discutons des situations où la mémoire active apporte le plus d'avantages et où l'attention peut être une meilleure option.