AgeNet: Tieflernender Regressor und Klassifikator für eine robuste Schätzung des sichtbaren Alters

Die Schätzung des scheinbaren Alters aus Gesichtsbildern hat aufgrund ihrer Relevanz für verschiedene Anwendungen in der realen Welt zunehmend an Aufmerksamkeit gewonnen. In dieser Arbeit stellen wir einen end-to-end Lernansatz für eine robuste Schätzung des scheinbaren Alters vor, den wir AgeNet nennen. Konkret lösen wir das Problem der scheinbaren Altersschätzung durch die Fusion zweier Modelltypen: regressionsbasierte Modelle, die auf reellen Werten beruhen, und klassifikationsbasierte Modelle, die auf einer Gaußschen Labelverteilung aufbauen. Für beide Modelltypen wird ein großskaliges tiefes neuronales Netzwerk mit Faltungsoperationen (deep convolutional neural network) eingesetzt, um informativere Altersdarstellungen zu lernen. Ein weiterer wesentlicher Aspekt des vorgeschlagenen AgeNet ist die Nutzung eines general-to-specific Transfer-Lernansatzes, um das Problem der Überanpassung (Overfitting) an kleinere Datensätze mit scheinbarem Alter zu vermeiden. Technisch gesehen wird AgeNet zunächst auf einem großskaligen, aus dem Web gesammelten Gesichtsdatensatz mit Identitätslabels vortrainiert und anschließend auf einem großskaligen Datensatz mit echtem Alter, der jedoch mit verrauschten Alterslabels versehen ist, feinabgestimmt. Schließlich erfolgt eine weitere Feinabstimmung auf einem kleinen Trainingsdatensatz mit scheinbaren Alterslabels. Die experimentellen Ergebnisse der ChaLearn 2015 Apparent Age Competition zeigen, dass unser AgeNet die derzeit beste Leistung in der Schätzung des scheinbaren Alters erreicht.