HyperAIHyperAI

Command Palette

Search for a command to run...

Peut-on remplacer l'attention par la mémoire active ?

Łukasz Kaiser; Samy Bengio

Résumé

Plusieurs mécanismes permettant de focaliser l'attention d'un réseau neuronal sur des parties sélectionnées de son entrée ou de sa mémoire ont été utilisés avec succès dans les modèles d'apprentissage profond ces dernières années. L'attention a amélioré la classification d'images, la légendage d'images, la reconnaissance vocale, les modèles génératifs et les tâches algorithmiques, mais elle a probablement eu le plus grand impact sur la traduction automatique neuronale.Récemment, des améliorations similaires ont été obtenues en utilisant des mécanismes alternatifs qui ne se concentrent pas sur une seule partie de la mémoire, mais opèrent sur l'ensemble de celle-ci en parallèle et de manière uniforme. Un tel mécanisme, que nous appelons mémoire active, a surpassé l'attention dans les tâches algorithmiques, le traitement d'images et la modélisation générative.Cependant, jusqu'à présent, la mémoire active n'a pas surpassé l'attention pour la plupart des tâches de traitement du langage naturel, en particulier pour la traduction automatique. Dans cet article, nous analysons cette lacune et proposons un modèle étendu de mémoire active qui égale les modèles d'attention existants en traduction automatique neuronale et généralise mieux aux phrases plus longues. Nous examinons ce modèle et expliquons pourquoi les précédents modèles de mémoire active n'ont pas réussi. Enfin, nous discutons des situations où la mémoire active apporte le plus d'avantages et où l'attention peut être une meilleure option.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp