il y a 2 mois

Apprentissage de séquences à séquences avec des réseaux neuronaux

Ilya Sutskever; Oriol Vinyals; Quoc V. Le

Résumé

Les Réseaux Neuronaux Profonds (RNP) sont des modèles puissants qui ont obtenu d'excellents résultats sur des tâches d'apprentissage complexes. Bien que les RNP fonctionnent bien lorsque de grands ensembles d'entraînement étiquetés sont disponibles, ils ne peuvent pas être utilisés pour mapper des séquences à des séquences. Dans cet article, nous présentons une approche générale bout-à-bout de l'apprentissage de séquences qui fait des hypothèses minimales sur la structure des séquences. Notre méthode utilise un Réseau à Mémoire à Court et Long Terme (LSTM) multicouche pour mapper la séquence d'entrée vers un vecteur de dimensionnalité fixe, puis un autre LSTM profond pour décoder la séquence cible à partir de ce vecteur.Notre résultat principal est que, sur une tâche de traduction anglais-français issue du jeu de données WMT'14, les traductions produites par le LSTM atteignent un score BLEU de 34,8 sur l'ensemble du jeu de test, où le score BLEU du LSTM a été pénalisé pour les mots hors vocabulaire. De plus, le LSTM n'a pas rencontré de difficultés avec les phrases longues. Pour comparaison, un système de traduction statistique basé sur les phrases (SMT) obtient un score BLEU de 33,3 sur le même jeu de données. Lorsque nous avons utilisé le LSTM pour réordonner les 1000 hypothèses produites par le système SMT mentionné précédemment, son score BLEU s'est amélioré pour atteindre 36,5, ce qui est proche du meilleur résultat précédent sur cette tâche.Le LSTM a également appris des représentations sensibles et cohérentes de phrases et de phrases entières qui sont sensibles à l'ordre des mots et relativement invariantes aux formes actives et passives. Enfin, nous avons constaté qu'inverser l'ordre des mots dans toutes les phrases sources (mais pas dans les phrases cibles) a considérablement amélioré les performances du LSTM. Cette inversion a introduit de nombreuses dépendances à court terme entre la phrase source et la phrase cible, ce qui a simplifié le problème d'optimisation.