HyperAIHyperAI
vor 2 Monaten

MiVOLO: Mehrfacheingabetransformer für Alters- und Geschlechtsbestimmung

Kuprashevich, Maksim ; Tolstykh, Irina
MiVOLO: Mehrfacheingabetransformer für Alters- und Geschlechtsbestimmung
Abstract

Das Erkennen von Alter und Geschlecht unter realen Bedingungen ist eine äußerst herausfordernde Aufgabe: Neben der Variabilität der Bedingungen, der Komplexität der Haltungen und der unterschiedlichen Bildqualität gibt es Fälle, in denen das Gesicht teilweise oder vollständig verdeckt ist. Wir stellen MiVOLO (Multi Input VOLO) vor, einen einfachen Ansatz zur Schätzung von Alter und Geschlecht unter Verwendung des neuesten Vision-Transformers. Unsere Methode integriert beide Aufgaben in ein vereintes Modell mit doppelter Eingabe/Ausgabe, das nicht nur gesichtsbasierte Informationen, sondern auch Daten von Personenaufnahmen nutzt. Dies verbessert die Generalisierungsfähigkeit unseres Modells und ermöglicht es, zufriedenstellende Ergebnisse zu liefern, selbst wenn das Gesicht im Bild nicht sichtbar ist. Um unser vorgeschlagenes Modell zu evaluieren, führen wir Experimente auf vier gängigen Benchmarks durch und erzielen dabei den aktuellen Stand der Technik (state-of-the-art performance), während wir gleichzeitig die Fähigkeit zur Echtzeitverarbeitung nachweisen.Zusätzlich führen wir einen neuen Benchmark ein, der auf Bildern aus dem Open Images Dataset basiert. Die Ground-Truth-Annotierungen für diesen Benchmark wurden sorgfältig von menschlichen Annotierern generiert, was durch eine intelligente Aggregation der Stimmen zu hochgenauen Antworten führt. Des Weiteren vergleichen wir die Alterserkennungsleistung unseres Modells mit menschlicher Genauigkeit und zeigen, dass es in den meisten Altersgruppen erheblich besser abschneidet als Menschen. Schließlich gewähren wir öffentlichen Zugang zu unseren Modellen sowie zum Validierungs- und Inferenzcode. Zudem stellen wir zusätzliche Annotierungen für verwendete Datensätze bereit und führen unseren neuen Benchmark ein.