HyperNetzwerke

Diese Arbeit untersucht Hypernetze: einen Ansatz, bei dem ein Netzwerk, auch als Hypernetz bekannt, die Gewichte für ein anderes Netzwerk generiert. Hypernetze bieten eine Abstraktion, die der in der Natur vorgefundenen Ähnlich ist: das Verhältnis zwischen Genotyp – dem Hypernetz – und Phänotyp – dem Hauptnetzwerk. Obwohl sie auch an HyperNEAT in der Evolution erinnern, werden unsere Hypernetze von Anfang bis Ende mit Rückwärtspropagation trainiert und sind daher in der Regel schneller. Der Schwerpunkt dieser Arbeit liegt darin, Hypernetze für tiefe Faltungsnetze und lange rekurrente Netze nützlich zu machen, bei denen Hypernetze als entspannte Form des Gewichteteilens über Schichten angesehen werden können. Unser wichtigstes Ergebnis ist, dass Hypernetze nicht geteilte Gewichte für LSTMs generieren können und nahezu den aktuellen Stand der Technik erreichen, was eine Vielzahl von sequentiellen Modellierungsaufgaben betrifft, einschließlich charakterbasierter Sprachmodellierung, Handschriftenerzeugung und neuronaler Maschinübersetzung. Dies stellt das Paradigma des Gewichteteilens für rekurrente Netze in Frage. Unsere Ergebnisse zeigen zudem, dass die Anwendung von Hypernetzen auf Faltungsnetze bei Bilderkennungsaufgaben immer noch respektable Ergebnisse erzielt im Vergleich zu den besten Basismodellen des aktuellen Standes der Technik, während weniger lernfähige Parameter erforderlich sind.