vor 17 Tagen

Effiziente neuronale Architektursuche für end-to-end Spracherkennung mittels Straight-Through-Gradienten

Huahuan Zheng, Keyu An, Zhijian Ou

Abstract

Neural Architecture Search (NAS), der Prozess der Automatisierung der Architektur-Engineering, stellt einen vielversprechenden nächsten Schritt dar, um end-to-end-automatisierte Spracherkennung (ASR) voranzutreiben, indem expertenentworfene Netzwerke durch lernbare, auf die Aufgabe zugeschnittene Architekturen ersetzt werden. Im Gegensatz zu frühen, rechenintensiven NAS-Methoden verbessern neuere, auf Gradienten basierende NAS-Verfahren, wie beispielsweise DARTS (Differentiable ARchiTecture Search), SNAS (Stochastic NAS) und ProxylessNAS, die Effizienz von NAS erheblich. In diesem Paper leisten wir zwei Beiträge. Erstens entwickeln wir rigoros eine effiziente NAS-Methode mittels Straight-Through (ST)-Gradienten, die als ST-NAS bezeichnet wird. Grundsätzlich nutzt ST-NAS die Verlustfunktion von SNAS, verwendet jedoch ST-Gradienten, um die Gradienten durch diskrete Variablen zurückzupropagieren, um den Verlust zu optimieren – ein Aspekt, der in ProxylessNAS nicht explizit aufgedeckt wurde. Die Verwendung von ST-Gradienten zur Unterstützung der Sub-Graph-Abtastung ist ein zentraler Bestandteil, um eine effiziente NAS jenseits von DARTS und SNAS zu erreichen. Zweitens wenden wir ST-NAS erfolgreich auf end-to-end-ASR an. Experimente an den weit verbreiteten Benchmark-Datenbanken mit 80 Stunden WSJ und 300 Stunden Switchboard zeigen, dass die von ST-NAS induzierten Architekturen die menschlich entworfenen Architekturen auf beiden Datensätzen signifikant übertrumpfen. Zudem werden die Stärken von ST-NAS, wie Transferierbarkeit der Architekturen sowie geringer Speicher- und Zeitbedarf, dokumentiert.