HyperAIHyperAI
vor einem Monat

Neuronale Architektur Suche mit Verstärkungslernen

Barret Zoph; Quoc V. Le
Neuronale Architektur Suche mit Verstärkungslernen
Abstract

Neuronale Netze sind leistungsstarke und flexible Modelle, die sich für viele anspruchsvolle Lernaufgaben im Bereich Bildverarbeitung, Spracherkennung und natürlichsprachliche Verarbeitung gut eignen. Trotz ihrer Erfolge sind neuronale Netze immer noch schwierig zu entwerfen. In dieser Arbeit verwenden wir ein rekurrentes Netzwerk, um die Modellbeschreibungen von neuronalen Netzen zu generieren, und trainieren dieses RNN mit Verstärkungslernen, um die erwartete Genauigkeit der generierten Architekturen auf einem Validierungssatz zu maximieren. Am CIFAR-10-Datensatz kann unsere Methode, ausgehend von null, eine neuartige Netzarchitektur entwickeln, die sich in Bezug auf die Testmenge-Genauigkeit den besten menschlichen Entwürfen gleichstellt. Unser CIFAR-10-Modell erreicht einen Testfehlerrate von 3,65, was 0,09 Prozent besser und 1,05-mal schneller ist als das bisher beste Modell mit einer ähnlichen Architektur. Am Penn Treebank-Datensatz kann unser Modell eine neuartige rekurrente Zelle erstellen, die die weit verbreitete LSTM-Zelle以及其他最先进的基线模型超越。我们的单元在Penn Treebank上实现了62.4的测试集困惑度,比之前的最先进模型低3.6的困惑度。该单元还可以迁移到PTB上的字符语言建模任务,并实现了1.214的最先进困惑度。请注意,最后一句中出现了中文部分,我将其翻译为德语如下:Die Zelle kann auch auf die Aufgabe des Zeichensprachmodells am PTB übertragen werden und erreicht dabei eine state-of-the-art Perplexität von 1,214.完整的德语翻译如下:Neuronale Netze sind leistungsstarke und flexible Modelle, die sich für viele anspruchsvolle Lernaufgaben im Bereich Bildverarbeitung, Spracherkennung und natürlichsprachliche Verarbeitung gut eignen. Trotz ihrer Erfolge sind neuronale Netze immer noch schwierig zu entwerfen. In dieser Arbeit verwenden wir ein rekurrentes Netzwerk (RNN), um die Modellbeschreibungen von neuronalen Netzen zu generieren, und trainieren dieses RNN mit Verstärkungslernen (Reinforcement Learning), um die erwartete Genauigkeit der generierten Architekturen auf einem Validierungssatz zu maximieren. Am CIFAR-10-Datensatz kann unsere Methode, ausgehend von null, eine neuartige Netzarchitektur entwickeln, die sich in Bezug auf die Testmenge-Genauigkeit den besten menschlichen Entwürfen gleichstellt. Unser CIFAR-10-Modell erreicht einen Testfehlerrate von 3,65, was 0,09 Prozent besser und 1,05-mal schneller ist als das bisher beste Modell mit einer ähnlichen Architektur (scheme). Am Penn Treebank-Datensatz kann unser Modell eine neuartige rekurrente Zelle erstellen, die die weit verbreitete LSTM-Zelle以及其他最先进的基线模型超越。Unsere Zelle erreicht eine Testmenge-Perplexität von 62,4 am Penn Treebank-Datensatz, was 3,6 Perplexität besser ist als das vorherige state-of-the-art Modell. Die Zelle kann auch auf die Aufgabe des Zeichensprachmodells am PTB übertragen werden und erreicht dabei eine state-of-the-art Perplexität von 1,214.为了确保所有内容都翻译成德语,以下是修正后的版本:Neuronale Netze sind leistungsstarke und flexible Modelle, die sich für viele anspruchsvolle Lernaufgaben im Bereich Bildverarbeitung, Spracherkennung und natürlichsprachliche Verarbeitung gut eignen. Trotz ihrer Erfolge sind neuronale Netze immer noch schwierig zu entwerfen. In dieser Arbeit verwenden wir ein rekurrentes Netzwerk (RNN), um die Modellbeschreibungen von neuronalen Netzen zu generieren, und trainieren dieses RNN mit Verstärkungslernen (Reinforcement Learning), um die erwartete Genauigkeit der generierten Architekturen auf einem Validierungssatz zu maximieren. Am CIFAR-10-Datensatz kann unsere Methode ausgehend von null eine neuartige Netzarchitektur entwickeln, welche hinsichtlich der Genauigkeit auf dem Testdatensatz den besten menschlichen Entwürfen ebenbürtig ist. Unser CIFAR-10-Modell erreicht einen Testfehlerrate von 3,65 %; dies entspricht einer Verbesserung um 0,09 % gegenüber dem bislang besten Modell gleichen architektonischen Aufbaus sowie einer Beschleunigung um den Faktor 1,05 bei der Ausführung. Am Penn Treebank-Korpus können wir außerdem eine neuartige rekurrente Zelle erzeugen lassen; diese übertreffen sowohl weit verbreitete Basismodelle wie z.B., Long Short-Term Memory (LSTM)-Zellen als auch andere state-of-the-art Basismodelle an Performance-Fähigkeiten hinsichtlich des Trainingsprozesses sowie der Evaluierung am Validierungssatz auszeichnet sie sich durch ihre Effizienz. Unsere Zelle erreicht eine Testmenge-Perplexität von 62,4 am Penn Treebank-Korpus; dies stellt eine Verbesserung um 3,6 Perplexität gegenüber dem vorherigen state-of-the-art Modell dar. Die Zelle kann ferner auch auf den Bereich des Zeichensprachmodells am PTB übertragen werden; hierbei zeigt sie sich durch ihre Leistungsfähigkeit auszeichnend: Sie erreicht eine state-of-the-art Perplexität von 1,214.请注意,这里“state-of-the-art”被直接保留了英文形式,因为这是科技文献中常用的术语。