Ein effizienter Trainingsansatz für Gesichtserkennungskomponenten mit sehr großem Skalenniveau

Die Gesichtserkennung hat im Zeitalter des tiefen Lernens erhebliche Fortschritte durch die Verfügbarkeit ultra-großer und gut beschrifteter Datensätze erzielt. Dennoch ist das Training auf solch umfangreichen Datensätzen zeitaufwendig und verbraucht erhebliche Hardware-Ressourcen. Daher ist die Entwicklung eines effizienten Trainingsansatzes unverzichtbar. Die hohen Rechen- und Speicherkosten resultieren hauptsächlich aus der Millionen- bis Milliardendimensionalen Struktur der vollständig verbundenen (FC) Schicht. Um dies zu adressieren, schlagen wir einen neuen Trainingsansatz vor, den wir Faster Face Classification (F2C) nennen, um Zeit und Kosten zu reduzieren, ohne die Leistungsfähigkeit zu beeinträchtigen. Unser Ansatz nutzt eine dynamische Klassen-Pool-Struktur (Dynamic Class Pool, DCP), um Identitätsmerkmale dynamisch zu speichern und zu aktualisieren, die als Ersatz für die FC-Schicht dienen kann. Die DCP ist effizient in Bezug auf Zeit und Kosten, da sie aufgrund ihrer geringen Größe und Unabhängigkeit von der Gesamtanzahl der Gesichtsidentitäten deutlich ressourcensparend ist. Wir validieren den vorgeschlagenen F2C-Ansatz an mehreren etablierten Gesichtserkennungsbenchmarks sowie an privaten Datensätzen und zeigen vergleichbare Ergebnisse, wobei die Geschwindigkeit in Bezug auf Erkennungsgenauigkeit und Hardware-Kosten die state-of-the-art FC-basierten Methoden übertrifft. Zudem wird unser Ansatz durch einen gut gestalteten dualen Daten-Loader weiter verbessert, der sowohl identitätsbasierte als auch instanzbasierte Ladestrategien integriert, was die Aktualisierung der DCP-Parameter noch effizienter macht.