Lernen strukturierter Ausgabedarstellungen mithilfe tiefer bedingter generativer Modelle

Überwachtes tiefes Lernen wurde erfolgreich für zahlreiche Erkennungsaufgaben im Bereich des maschinellen Lernens und der Computer Vision eingesetzt. Obwohl es in der Lage ist, komplexe many-to-one-Funktionen sehr gut zu approximieren, wenn ausreichend große Mengen an Trainingsdaten zur Verfügung stehen, fehlt den derzeitigen überwachten tiefen Lernmethoden eine probabilistische Inferenz, was die Modellierung komplexer strukturierter Ausgaberepräsentationen erschwert. In dieser Arbeit entwickeln wir ein skalierbares tiefes bedingtes generatives Modell für strukturierte Ausgabevariablen unter Verwendung von Gaussischen latenten Variablen. Das Modell wird effizient im Rahmen des stochastischen Gradienten-Verifikations-Bayes (stochastic gradient variational Bayes) trainiert und ermöglicht eine schnelle Vorhersage mittels stochastischer Feed-Forward-Inferenz. Darüber hinaus stellen wir neuartige Strategien zur Entwicklung robuster strukturierter Vorhersagealgorithmen vor, darunter eine rekurrente Architektur für die Vorhersage, die Injektion von Eingabestörungen und Trainingsmethoden mit mehrskaliger Vorhersage. In Experimenten zeigen wir die Wirksamkeit unseres vorgeschlagenen Algorithmus im Vergleich zu deterministischen tiefen neuronalen Netzen, insbesondere hinsichtlich der Erzeugung vielfältiger, aber realistischer Ausgaberepräsentationen mittels stochastischer Inferenz. Zudem ergänzen sich die vorgeschlagenen Ansätze im Training und in der Architekturgestaltung komplementär, was zu herausragenden Ergebnissen bei der pixelgenauen Objektsegmentierung und semantischen Klassifikation auf den Datensätzen Caltech-UCSD Birds 200 und einer Teilmenge des Labeled Faces in the Wild (LFW) führt.