Gesichtsausrichtung mit Kernel-Dichteechtneuronaler Netzwerk

Tiefneuronale Netze erzielen in vielen Aufgaben des maschinellen Sehens, wie beispielsweise der Gesichtsorientierung, eine hervorragende Leistung. Bei Testbildern mit geringer Auflösung, Verdeckung oder adversariellen Angriffen leidet jedoch die Genauigkeit solcher Netze erheblich. Daher ist es entscheidend, die Unsicherheit ihrer Vorhersagen quantifizieren zu können. Typischerweise wird für die Quantifizierung der Unsicherheit bei Regressionsaufgaben ein probabilistisches neuronales Netzwerk mit einer Gauss-Verteilung über dem Ziel verwendet. In realen Anwendungen, insbesondere in Aufgaben des maschinellen Sehens, ist diese Gauss-Annahme jedoch zu stark. Um allgemeinere Verteilungen – wie multimodale oder asymmetrische Verteilungen – modellieren zu können, schlagen wir vor, ein kernbasiertes Dichteschätzung-Neuronales Netzwerk (kernel density deep neural network) zu entwickeln. Speziell für die Gesichtsorientierung adaptieren wir ein state-of-the-art Hourglass-Neuronales Netzwerk in einen probabilistischen Netzwerkrahmen, dessen Ausgabe eine Landmark-Wahrscheinlichkeitskarte ist. Das Modell wird durch Maximierung der bedingten Log-Likelihood trainiert. Um die Ausgabewahrscheinlichkeitskarte effektiv auszunutzen, erweitern wir das Modell auf mehrere Stufen, sodass die Logits der vorherigen Stufe als Eingabe für die nächste Stufe dienen können, um die Genauigkeit der Landmarkendetektion schrittweise zu verbessern. Umfangreiche Experimente auf Benchmark-Datensätzen zeigen gegenüber state-of-the-art-Methoden des unbeschränkten tiefen Lernens, dass das vorgeschlagene kernbasierte Dichteschätzung-Netzwerk eine vergleichbare oder überlegene Vorhersagegenauigkeit erreicht. Zudem liefert es eine Schätzung der aleatorischen Unsicherheit in den Vorhersagen.