Gesichtsschönheitsanalyse mittels Verteilungsprognose und CNN-Ensembles
Die Vorhersage von Gesichtsschönheit (Facial Beauty Prediction, FBP) ist eine Aufgabe im Bereich des Computersehens, die darauf abzielt, die Schönheit eines Gesichts quantitativ zu bewerten. Mehrere Lösungsansätze für dieses Problem haben erheblich von den jüngsten Fortschritten im Bereich des tiefen Lernens profitiert. Allerdings trainieren die meisten aktuellen Methoden maschinelle Lernmodelle ausschließlich zur Vorhersage von Mittelwertschönheitswerten und behandeln FBP somit rein als Regressionsaufgabe. Zudem nutzen bisherige tiefen Lern-basierte Ansätze zur FBP Transferlernen von Modellen, die auf allgemeinen Klassifikationsaufgaben wie ImageNet trainiert wurden. Wir schlagen vor, eine Ensemble-Gruppe von konvolutionellen neuronalen Netzen (CNNs), ursprünglich auf Gesichtsverifizierungsaufgaben trainiert, mittels verschiedener Verlustfunktionen – darunter Verlustfunktionen basierend auf der Erd-Mover-Distanz (Earth Mover’s Distance, EMD) – zu feinabstimmen. Mit diesem Ansatz kann unsere Methode nicht nur den Mittelwert, sondern die gesamte Verteilung der Schönheitswerte vorhersagen. Zudem weisen die vorhergesagten Mittelwerte eine höhere Pearson-Korrelation (PC) gegenüber den tatsächlichen (ground truth) Werten auf. Unser Verfahren erreicht auf dem MEBeauty-Datensatz state-of-the-art-Ergebnisse hinsichtlich des mittleren absoluten Fehlers (MAE), des mittleren quadratischen Fehlers (RMSE) sowie der Pearson-Korrelation zwischen den vorhergesagten und den tatsächlichen Mittelwertscores.