vor 2 Monaten

Lernen von implizit rekurrenten CNNs durch Parameterfreigabe

Pedro Savarese; Michael Maire

Abstract

Wir stellen ein Parametersharing-Verfahren vor, bei dem verschiedene Schichten eines Faltungsneuronalen Netzes (CNN) durch eine gelernte lineare Kombination von Parametertensoren aus einer globalen Vorlagenbank definiert werden. Die Einschränkung der Anzahl der Vorlagen führt zu einer flexiblen Hybridisierung traditioneller CNNs und rekurrenter Netze. Im Vergleich zu traditionellen CNNs zeigen wir erhebliche Parameterersparnisse bei Standardbildklassifizierungsaufgaben, wobei die Genauigkeit beibehalten wird.Unser einfaches Parametersharing-Verfahren, obwohl durch weiche Gewichte definiert, ergibt in der Praxis oft trainierte Netzwerke mit fast strenger rekurrenter Struktur; sie können mit vernachlässigbaren Nebeneffekten in Netzwerke mit tatsächlichen Schleifen umgewandelt werden. Das Training dieser Netzwerke impliziert daher implizit die Entdeckung geeigneter rekurrenter Architekturen. Obwohl wir uns nur mit dem Designaspekt der rekurrenten Verbindungen befassen, erreichen unsere trainierten Netzwerke eine Genauigkeit, die mit denjenigen vergleichbar ist, die mithilfe modernster Verfahren zur Such nach neuronalen Architekturen (Neural Architecture Search, NAS) erstellt wurden.Die Hybridisierung von rekurrenten und faltenden Netzen kann auch einen vorteilhaften architektonischen Bias darstellen. Insbesondere bei synthetischen Aufgaben, die algorithmisch sind, trainieren unsere hybriden Netzwerke schneller und generalisieren besser auf Testbeispiele außerhalb des Bereichs des Trainingsdatensatzes.