HyperAIHyperAI
vor 2 Monaten

Neuronale Architektursuche mit Bayes'scher Optimierung und optimaler Transporttheorie

Kirthevasan Kandasamy; Willie Neiswanger; Jeff Schneider; Barnabas Poczos; Eric Xing
Neuronale Architektursuche mit Bayes'scher Optimierung und optimaler Transporttheorie
Abstract

Bayessche Optimierung (BO) bezieht sich auf eine Klasse von Methoden zur globalen Optimierung einer Funktion $f$, die nur über Punktauswertungen zugänglich ist. Sie wird in der Regel in Situationen eingesetzt, in denen die Auswertung von $f$ sehr kostspielig ist. Ein häufiges Anwendungsszenario für BO im Maschinellen Lernen ist die Modellauswahl, bei der es nicht möglich ist, die Generalisierungsleistung eines statistischen Modells analytisch zu modellieren. Stattdessen greifen wir auf verrauschte und kostspielige Trainings- und Validierungsverfahren zurück, um das beste Modell auszuwählen. Konventionelle BO-Methoden haben sich auf euklidische und kategorische Bereiche konzentriert, was im Kontext der Modellauswahl nur das Einstellen skalarer Hyperparameter von Maschinenlernalgorithmen erlaubt. Mit dem steigenden Interesse an tiefem Lernen gibt es jedoch einen wachsenden Bedarf, neuronale Netzwerk-\emph{Architekturen} einzustellen. In dieser Arbeit entwickeln wir NASBOT, ein auf Gaußschen Prozessen basierendes BO-Framework für die Suche nach neuronalen Architekturen. Um dies zu erreichen, entwickeln wir eine Distanzmetrik im Raum der neuronalen Netzwerkarchitekturen, die effizient durch ein Optimal Transport Programm berechnet werden kann. Diese Distanz könnte auch unabhängig vom BO für die tiefen Lerncommunity von Interesse sein, da sie Anwendungen außerhalb des BO finden könnte. Wir zeigen, dass NASBOT in mehreren auf Kreuzvalidierung basierenden Modellauswahl-Aufgaben bei Mehrlagennetzen (Multi-Layer Perceptrons) und Faltungsnetzen (Convolutional Neural Networks) anderen Alternativen zur Architektursuche überlegen ist.