Tiefes Lernen von Gesichtseigenschaften im Wild

Die Vorhersage von Gesichtseigenschaften in der freien Natur ist aufgrund komplexer Gesichtsvariationen herausfordernd. Wir schlagen ein neues tiefes Lernframework für die Attributvorhersage in der freien Natur vor. Dieses Framework kaskadiert zwei CNNs, LNet und ANet, die gemeinsam mit Attributschlagwörtern feinjustiert werden, aber unterschiedlich vortrainiert sind. LNet wird durch eine große Anzahl allgemeiner Objektkategorien für die Gesichtslokalisation vortrainiert, während ANet durch eine große Anzahl von Gesichtsidentitäten für die Attributvorhersage vortrainiert wird. Dieses Framework übertrifft den Stand der Technik um einen großen Margin und enthüllt wertvolle Erkenntnisse über das Lernen von Gesichtsdarstellungen.(1) Es zeigt, wie verschiedene Vortrainierungsstrategien die Leistungsfähigkeit der Gesichtslokalisation (LNet) und der Attributvorhersage (ANet) verbessern können.(2) Es offenbart, dass obwohl die Filter von LNet nur mit bildbasierten Attributschlagwörtern feinjustiert werden, ihre Antwortkarten über gesamte Bilder starke Indikatoren für Gesichtspositionen darstellen. Diese Tatsache ermöglicht es, LNet für die Gesichtslokalisation nur mit bildbasierten Annotationen zu trainieren, ohne auf Gesichtsbounding-Boxen oder Landmarks angewiesen zu sein, die von allen Arbeiten zur Attributerkennung erforderlich sind.(3) Es zeigt zudem, dass nach dem Vortrainieren mit einer großen Anzahl von Gesichtsidentitäten die hochstufigen verborgenen Neuronen von ANet automatisch semantische Konzepte entdecken. Diese Konzepte werden nach der Feinabstimmung mit Attributschlagwörtern erheblich bereichert. Jedes Attribut kann gut durch eine dünnbesetzte lineare Kombination dieser Konzepte erklärt werden.