Vor-Trainierungsstrategien und Datensätze für das Lernen von Gesichtsdarstellungen

Wie kann eine universelle Gesichtsdarstellung am besten gelernt werden? Kürzliche Arbeiten im Bereich der tiefen Lernmethoden (Deep Learning) zur Gesichtsanalyse haben sich auf überwachtes Lernen für spezifische Aufgaben konzentriert (z.B. Gesichtserkennung, Lokalisierung von Gesichtspunkten usw.), aber die umfassendere Frage, wie man eine Gesichtsdarstellung findet, die sich leicht an verschiedene Gesichtsanalysesaufgaben und -datensätze anpassen lässt, wurde vernachlässigt. In diesem Zusammenhang leisten wir folgende vier Beiträge: (a) Wir führen erstmals einen umfassenden Evaluationsbenchmark für das Lernen von Gesichtsdarstellungen ein, der fünf wichtige Aufgaben der Gesichtsanalyse abdeckt. (b) Wir untersuchen systematisch zwei Methoden des groß angelegten Darstellungslerns für Gesichter: überwachtes und nicht-überwachtes Vorlernens (Pre-Training). Besonders wichtig ist hierbei unser Fokus auf den Fall des Few-Shot-Lernens bei Gesichtsaufgaben. (c) Wir untersuchen wichtige Eigenschaften der Trainingsdatensätze, einschließlich ihrer Größe und Qualität (etikettiert, nicht etikettiert oder sogar unverarbeitet). (d) Um unsere Schlussfolgerungen zu ziehen, haben wir eine sehr große Anzahl von Experimenten durchgeführt. Unsere beiden Hauptbefunde sind: (1) Nicht-überwachtes Vorlernen auf vollständig natürlichen, unverarbeiteten Daten bietet konsistente und in einigen Fällen erhebliche Genauigkeitsverbesserungen für alle betrachteten Gesichtsaufgaben. (2) Viele existierende Datensätze mit gesichtsbasierten Videos scheinen eine große Redundanz zu haben. Wir werden Code und vorab trainierte Modelle veröffentlichen, um zukünftige Forschungen zu erleichtern.