Effizientes Lernen facialer Merkmale mit weiten Ensemble-basierten Faltungsneuralen Netzen

Ensemble-Methoden, die traditionell aus unabhängig trainierten, de-korrelierten Modellen bestehen, haben sich als effiziente Verfahren zur Reduktion des verbleibenden residualen Generalisierungsfehlers erwiesen und führen somit zu robusteren und genauen Ansätzen für praktische Anwendungen. Im Kontext des Deep Learning ist das Training eines Ensembles tiefgehender Netzwerke jedoch kostspielig und führt zu hoher Redundanz, was ineffizient ist. In diesem Paper präsentieren wir Experimente mit Ensembles mit geteilten Darstellungen (ESRs), basierend auf konvolutionellen Netzwerken, um quantitativ und qualitativ deren Datenverarbeitungseffizienz und Skalierbarkeit auf großskaligen Datensätzen facialer Ausdrücke nachzuweisen. Wir zeigen, dass sowohl Redundanz als auch Rechenlast erheblich reduziert werden können, indem man die Verzweigungsebene des ESR variiert, ohne dabei die Vielfalt und die Generalisierungsfähigkeit zu verlieren – zwei entscheidende Faktoren für die Leistung von Ensembles. Experimente auf großskaligen Datensätzen deuten darauf hin, dass ESRs den verbleibenden residualen Generalisierungsfehler auf den Datensätzen AffectNet und FER+ verringern, menschliche Leistungsniveaus erreichen und state-of-the-art-Methoden für die Erkennung facialer Ausdrücke in freier Umgebung – unter Verwendung von Emotions- und Affekt-Konzepten – übertreffen.