Ein Aufruf zur Reflexion der Evaluationspraktiken für das Altersschätzen: Vergleichende Analyse der Stand der Technik und ein einheitlicher Benchmark

Die Vergleichbarkeit verschiedener Altersschätzungsmethoden stellt aufgrund der Unzuverlässigkeit veröffentlichter Ergebnisse aufgrund von Inkonsistenzen im Benchmarking-Prozess eine Herausforderung dar. Bisherige Studien haben kontinuierliche Leistungsverbesserungen in den vergangenen zehn Jahren mit spezialisierten Methoden berichtet; unsere Ergebnisse stellen diese Behauptungen jedoch in Frage. In diesem Paper identifizieren wir zwei triviale, jedoch anhaltende Probleme im derzeit verwendeten Evaluationsprotokoll und beschreiben, wie diese behoben werden können. Wir präsentieren eine umfassende vergleichende Analyse aktueller State-of-the-Art-Methoden zur Gesichtsalterschätzung. Überraschenderweise stellen wir fest, dass die Leistungsunterschiede zwischen den Methoden im Vergleich zu anderen Faktoren vernachlässigbar sind, wie beispielsweise Gesichtsausrichtung, Gesichtsbedeckung, Bildauflösung, Modellarchitektur oder der Menge an Daten, die für das Pretraining verwendet werden. Auf Basis dieser Erkenntnisse schlagen wir vor, FaRL als Backbone-Modell zu verwenden, und demonstrieren dessen Wirksamkeit auf allen öffentlichen Datensätzen. Den Quellcode sowie die exakten Datensplits stellen wir öffentlich auf GitHub zur Verfügung.