Réseaux Pointeurs

Nous présentons une nouvelle architecture neuronale pour apprendre la probabilité conditionnelle d'une séquence de sortie dont les éléments sont des jetons discrets correspondant à des positions dans une séquence d'entrée. De tels problèmes ne peuvent pas être abordés de manière triviale par des approches existantes telles que les modèles sequence-to-sequence et les Machines de Turing neuronales, car le nombre de classes cibles à chaque étape de la séquence de sortie dépend de la longueur variable de l'entrée. Les problèmes tels que le tri de séquences de taille variable et divers problèmes d'optimisation combinatoire relèvent de cette catégorie. Notre modèle résout le problème des dictionnaires de sortie à taille variable en utilisant un mécanisme récemment proposé d'attention neuronale. Il diffère des tentatives précédentes d'attention en ce qu'il utilise l'attention non pas pour mélanger les unités cachées d'un encodeur en un vecteur contexte à chaque étape du décodeur, mais plutôt comme un pointeur pour sélectionner un élément de la séquence d'entrée comme sortie. Nous appelons cette architecture un Réseau Pointeur (Pointer Net ou Ptr-Net). Nous montrons que les Ptr-Nets peuvent être utilisés pour apprendre des solutions approximatives à trois problèmes géométriques difficiles -- trouver les enveloppes convexes planes, calculer les triangulations de Delaunay et le problème du voyageur de commerce plan -- uniquement à partir d'exemples d'apprentissage. Les Ptr-Nets non seulement améliorent les modèles sequence-to-sequence avec attention sur l'entrée, mais permettent également une généralisation aux dictionnaires de sortie à taille variable. Nous démontrons que les modèles appris généralisent au-delà des longueurs maximales sur lesquelles ils ont été entraînés. Nous espérons que nos résultats sur ces tâches encourageront une exploration plus large de l'apprentissage neuronal pour les problèmes discrets.