Feinmaschige Altersschätzung in der Wildbahn mit Aufmerksamkeits-LSTM-Netzwerken

Das Alter aus einem einzelnen Gesichtsbild zu schätzen ist eine wesentliche Aufgabe im Bereich der Mensch-Computer-Interaktion und Computer Vision, die einen breiten Spektrum praktischer Anwendungswerte hat. Die Genauigkeit der Altersschätzung von Gesichtsbildern in freier Wildbahn ist mit den vorhandenen Methoden relativ gering, da diese nur globale Merkmale berücksichtigen und die feingranularen Merkmale alterssensitiver Bereiche vernachlässigen. Wir schlagen eine neuartige Methode vor, die auf unserem Attention Long Short-Term Memory (AL) Netzwerk basiert, für die feingranulare Altersschätzung in freier Wildbahn. Diese Methode wurde durch die feingranularen Kategorien und das visuelle Aufmerksamkeitsmechanismus inspiriert. Sie kombiniert Residual Networks (ResNets) oder Residual Network of Residual Network (RoR)-Modelle mit LSTM-Einheiten, um AL-ResNets oder AL-RoR-Netzwerke zu konstruieren, die lokale Merkmale alterssensitiver Regionen extrahieren, was die Genauigkeit der Altersschätzung effektiv verbessert.Zunächst wird ein ResNets- oder RoR-Modell, das auf dem ImageNet-Datensatz vortrainiert wurde, als Basismodell ausgewählt und dann auf dem IMDB-WIKI-101-Datensatz für die Altersschätzung weitertrainiert. Anschließend werden die ResNets oder RoR auf den Zielaltersdatensätzen weitertrainiert, um globale Merkmale von Gesichtsbildern zu extrahieren. Um lokale Merkmale alterssensitiver Regionen zu extrahieren, wird eine LSTM-Einheit verwendet, um die Koordinaten der alterssensitiven Region automatisch zu ermitteln. Schließlich wird eine direkte Altersgruppenklassifizierung auf dem Adience-Datensatz durchgeführt und Altersregressionsversuche mittels des Deep EXpectation Algorithmus (DEX) auf den MORPH Album 2-, FG-NET- und 15/16LAP-Datensätzen durchgeführt. Durch die Kombination von globalen und lokalen Merkmalen erhalten wir unsere endgültigen Vorhersageergebnisse.Experimentelle Ergebnisse zeigen die Effektivität und Robustheit des vorgeschlagenen AL-ResNets oder AL-RoR für die Altersschätzung in freier Wildbahn, wobei es bessere state-of-the-art-Leistungen als alle anderen Faltungsneuronalen Netze erzielt.