Altersgruppe- und Geschlechtsschätzung in der Wildnis mit tiefer RoR-Architektur

Die automatische Vorhersage von Altersgruppe und Geschlecht aus Gesichtsbildern, die unter unkontrollierten Bedingungen aufgenommen wurden, ist eine wichtige und herausfordernde Aufgabe in vielen realen Anwendungen. Dennoch sind herkömmliche Methoden mit manuell entworfenen Merkmalen bei Benchmarks im freien Feld aufgrund ihrer Unfähigkeit, große Variationen in unkontrollierten Bildern zu bewältigen, unbefriedigend. Diese Schwierigkeit wird durch Convolutional Neural Networks (CNN) teilweise gelindert, da diese eine leistungsstarke Merkmalsrepräsentation bieten. In dieser Arbeit schlagen wir eine neue CNN-basierte Methode für die Schätzung von Altersgruppe und Geschlecht vor, die auf Residual Networks of Residual Networks (RoR) basiert. Dieses Modell zeigt eine bessere Optimierungsfähigkeit für die Klassifizierung von Altersgruppen und Geschlecht als andere CNN-Architekturen. Darüber hinaus werden zwei bescheidene Mechanismen vorgestellt, die auf Beobachtungen der Eigenschaften von Altersgruppen basieren und dazu dienen, die Leistung der Altersschätzung weiter zu verbessern. Um die Leistung weiter zu steigern und das Problem des Überanpassens (Overfitting) zu mildern, wird das RoR-Modell zunächst auf ImageNet vortrainiert und dann auf dem IMDB-WIKI-101-Datensatz feinjustiert, um die Merkmale von Gesichtsbildern weiter zu lernen. Schließlich wird es verwendet, um auf dem Adience-Datensatz feinjustiert zu werden. Unsere Experimente zeigen die Effektivität der RoR-Methode für die Schätzung von Alter und Geschlecht im freien Feld, wo sie bessere Ergebnisse als andere CNN-Methoden erzielt. Letztendlich erreichen RoR-152 + IMDB-WIKI-101 mit den beiden Mechanismen neue Stand-of-the-Art-Ergebnisse (state-of-the-art results) beim Adience-Benchmark.