vor 2 Monaten

Pointer Networks

Oriol Vinyals; Meire Fortunato; Navdeep Jaitly

Abstract

Wir stellen eine neue neuronale Architektur vor, die das bedingte Wahrscheinlichkeitsmaß einer Ausgabesequenz mit diskreten Token lernen kann, die den Positionen in einer Eingabesequenz entsprechen. Solche Probleme können nicht trivial durch bestehende Ansätze wie Sequenz-zu-Sequenz-Modellierung und Neural Turing Machines gelöst werden, da die Anzahl der Zielklassen in jedem Schritt der Ausgabe von der Länge der Eingabe abhängt, die variabel ist. Probleme wie das Sortieren von Sequenzen variabler Größe und verschiedene kombinatorische Optimierungsprobleme gehören zu dieser Klasse. Unser Modell löst das Problem variabler Ausgabewörterbücher durch Verwendung eines kürzlich vorgeschlagenen Mechanismus neuronaler Aufmerksamkeit. Es unterscheidet sich von früheren Aufmerksamkeitsversuchen dadurch, dass es statt der Aufmerksamkeit zur Kombination versteckter Einheiten des Encoders zu einem Kontextvektor in jedem Schritt des Decoders, die Aufmerksamkeit als Zeiger verwendet, um ein Element der Eingabesequenz als Ausgabe auszuwählen. Wir nennen diese Architektur Pointer Net (Ptr-Net). Wir zeigen, dass Ptr-Nets verwendet werden können, um näherungsweise Lösungen für drei anspruchsvolle geometrische Probleme zu lernen – das Finden von ebenen konvexen Hüllen, das Berechnen von Delaunay-Triangulierungen und das ebene Traveling Salesman Problem – allein durch Trainingsbeispiele. Ptr-Nets verbessern nicht nur über Sequenz-zu-Sequenz-Modellierung mit Input-Aufmerksamkeit, sondern ermöglichen auch die Generalisierung auf variable Ausgabewörterbücher. Wir zeigen, dass die gelernten Modelle über die maximalen Längen hinaus generalisieren können, auf denen sie trainiert wurden. Wir hoffen, unsere Ergebnisse bei diesen Aufgaben werden eine breitere Erkundung des neuronalen Lernens für diskrete Probleme ermutigen.