Mehr Schichten! End-to-End-Regression und Unsicherheitsschätzung auf tabellarischen Daten mit tiefen neuronalen Netzen

Diese Arbeit unternimmt den Versuch, die Effektivität von Deep Learning für die Verarbeitung tabellarischer Daten zu analysieren. Es wird allgemein angenommen, dass Entscheidungsbäume und ihre Ensembles die führende Methode in diesem Bereich darstellen, während tiefe neuronale Netze sich auf Anwendungen wie Computer Vision beschränken müssten. Doch ein tiefes neuronales Netzwerk ist ein Framework zur Erstellung gradientenbasierter hierarchischer Darstellungen, und diese zentrale Eigenschaft sollte in der Lage sein, die optimale Verarbeitung allgemeiner strukturierter (tabellarischer) Daten zu ermöglichen – nicht nur von Bildmatrizen oder Audiospektrogrammen. Dieses Problem wird im Rahmen des Weather Prediction-Tracks im Yandex Shifts Challenge betrachtet (anders ausgedrückt: die Yandex Shifts Weather-Aufgabe). Diese Aufgabe stellt eine Variante des klassischen Regressionsproblems für tabellarische Daten dar und steht zudem in engem Zusammenhang mit einem weiteren zentralen Thema: Generalisierung und Unsicherheit im maschinellen Lernen. In dieser Arbeit wird ein end-to-end-Algorithmus zur Lösung der Regressionsaufgabe mit Unsicherheitsschätzung für tabellarische Daten vorgestellt, der auf der Kombination von vier zentralen Ideen basiert: 1) tiefe Ensemble aus selbst-normalisierenden neuronalen Netzen, 2) Regression als Parameterschätzung der Gauss’schen Fehlerverteilung des Zieloutputs, 3) hierarchisches Multitask-Lernen und 4) einfache Datenvorverarbeitung. Drei Varianten des vorgeschlagenen Algorithmus erreichten jeweils die ersten drei Plätze in der Leaderboard-Rangliste des Yandex Shifts Weather Challenge. Die vorliegende Arbeit geht davon aus, dass dieser Erfolg auf grundlegende Eigenschaften des Deep-Learning-Algorithmus zurückzuführen ist, und unternimmt den Versuch, dies zu belegen.