Schnelles parametrisches Lernen mit Aktivierungsmemorisierung

Neuronale Netze, die mit Backpropagation trainiert werden, haben oft Schwierigkeiten, Klassen zu identifizieren, die nur selten beobachtet wurden. In Anwendungen, bei denen die meisten Klassifikationslabels selten sind, wie zum Beispiel beim Sprachmodellieren, kann dies zu einer Leistungsschwäche werden. Eine mögliche Lösung besteht darin, das Netzwerk mit einem schnellen lernenden nichtparametrischen Modell zu erweitern, das aktuelle Aktivierungen und Klassifikationslabels in einem externen Speicher speichert. Wir untersuchen eine vereinfachte Architektur, bei der wir einen Teil der Modellparameter als schnelle Speicherelemente behandeln. Dies kann dazu beitragen, Informationen über längere Zeiträume hinweg zu bewahren als ein traditionelles Gedächtnis und erfordert keinen zusätzlichen Speicherplatz oder Rechenleistung. Im Fall der Bildklassifizierung zeigen wir eine schnellere Bindung neuer Klassen anhand einer Aufgabenstellung mit dem Omniglot-Bildcurriculum. Wir demonstrieren auch verbesserte Leistungen für wortbasierte Sprachmodelle in Nachrichtenberichten (GigaWord), Büchern (Projekt Gutenberg) und Wikipedia-Artikeln (WikiText-103) --- letzteres erreicht eine bislang beste Perplexität von 29.2.