Architekturkomplexitätsmaße von rekurrenten neuronalen Netzen

In dieser Arbeit untersuchen wir systematisch die Verbindungsarchitekturen von rekurrenten Neuronalen Netzen (RNNs). Unser Hauptbeitrag besteht aus zwei Aspekten: Erstens präsentieren wir ein strenges graphentheoretisches Framework, das die Verbindungsarchitekturen von RNNs im Allgemeinen beschreibt. Zweitens schlagen wir drei Architekturkomplexitätsmaße für RNNs vor: (a) die rekurrente Tiefe, die die zeitliche Nichtlinearität des RNNs erfasst, (b) die feedforward-Tiefe, die die lokale Eingabe-Ausgabe-Nichtlinearität erfasst (ähnlich der „Tiefe“ in feedforward Neuronalen Netzen (FNNs)), und (c) den rekurrenten Skip-Koeffizienten, der beschreibt, wie schnell Informationen über die Zeit hinweg verbreitet werden. Wir beweisen streng die Existenz und Berechenbarkeit jedes Maßes. Unsere experimentellen Ergebnisse zeigen, dass RNNs von einer größeren rekurrenten Tiefe und feedforward-Tiefe profitieren könnten. Darüber hinaus demonstrieren wir, dass eine Erhöhung des rekurrenten Skip-Koeffizienten bei Problemen mit langfristigen Abhängigkeiten Leistungsverbesserungen bietet.