Energiemodelle für tiefe probabilistische Regression

Während die Klassifikation auf Basis tiefer Lernverfahren im Allgemeinen mit standardisierten Ansätzen angegangen wird, werden für Regression eine Vielzahl unterschiedlicher Techniken eingesetzt. In der Computer Vision ist eine besonders populäre dieser Techniken die sogenannte Vertrauenswert-basierte Regression, bei der für jedes Eingabe-Ziel-Paar (x,y) ein Vertrauenswert vorhergesagt wird. Obwohl dieser Ansatz beeindruckende Ergebnisse erzielt hat, erfordert er wichtige, auf die Aufgabe zugeschnittene Designentscheidungen, und die vorhergesagten Vertrauenswerte besitzen keine natürliche probabilistische Interpretation. Wir adressieren diese Probleme durch die Einführung eines allgemeinen und konzeptionell einfachen Regressionsansatzes mit klarer probabilistischer Deutung. In unserem vorgeschlagenen Ansatz modellieren wir die bedingte Zielverteilung p(y|x) mittels eines Energiebasierten Modells, wobei ein tiefes neuronales Netzwerk die nicht-normalisierte Dichte aus (x,y) vorhersagt. Dieses Modell von p(y|x) wird durch direkte Minimierung der zugehörigen negativen Log-Likelihood trainiert, die mittels Monte-Carlo-Sampling approximiert wird. Wir führen umfassende Experimente auf vier Aufgaben der Computer Vision-Regression durch. Unser Ansatz übertrifft sowohl direkte Regression als auch andere probabilistische und vertrauenswertbasierte Methoden. Insbesondere erreicht unser Modell eine Verbesserung um 2,2 % im Average Precision (AP) gegenüber Faster-RCNN bei der Objektdetektion auf dem COCO-Datensatz und erzielt eine neue State-of-the-Art-Leistung bei der visuellen Verfolgung, wenn es zur Schätzung von Bounding Boxes eingesetzt wird. Im Gegensatz zu vertrauenswertbasierten Methoden zeigt sich, dass unser Ansatz auch direkt auf allgemeinere Aufgaben wie Alters- und Kopfpose-Schätzung anwendbar ist. Der Quellcode ist unter https://github.com/fregu856/ebms_regression verfügbar.