Command Palette
Search for a command to run...
Hypernetzwerke
Hypernetzwerke
Ha David Dai Andrew Le Quoc V.
Zusammenfassung
Diese Arbeit untersucht Hypernetzwerke: einen Ansatz, bei dem ein Netzwerk – auch als Hypernetzwerk bezeichnet – die Gewichte eines anderen Netzwerks generiert. Hypernetzwerke bieten eine Abstraktion, die der Natur ähnelt: dem Verhältnis zwischen einem Genotyp – dem Hypernetzwerk – und einem Phänotyp – dem Hauptnetzwerk. Obwohl sie an HyperNEAT in der Evolution erinnern, werden unsere Hypernetzwerke end-to-end mittels Rückpropagation trainiert und sind daher in der Regel schneller. Der Fokus dieser Arbeit liegt darin, Hypernetzwerke für tiefe konvolutionale Netzwerke und lange rekurrente Netzwerke nutzbar zu machen, bei denen Hypernetzwerke als verallgemeinerte Form des Gewichteteilens über Schichten aufgefasst werden können. Unser zentrales Ergebnis ist, dass Hypernetzwerke nicht-geteilte Gewichte für LSTMs erzeugen können und dabei nahezu state-of-the-art-Ergebnisse bei einer Vielzahl von Sequenzmodellierungsaufgaben erzielen, darunter Sprachmodellierung auf Zeichenebene, Handschrifterzeugung und neuronale Maschinenübersetzung, wodurch die herkömmliche Annahme des Gewichteteilens bei rekurrenten Netzwerken in Frage gestellt wird. Zudem zeigen unsere Ergebnisse, dass Hypernetzwerke, angewendet auf konvolutionale Netzwerke, im Vergleich zu aktuellen Spitzenmodellen bei Bilderkennungsaufgaben weiterhin respektable Ergebnisse erzielen, während sie weniger lernbare Parameter erfordern.