HyperAIHyperAI
vor 2 Monaten

Binarisierte Faltungs-Landmarkenlokalisatoren für die Schätzung der menschlichen Körperhaltung und das Ausrichten von Gesichtern bei begrenzten Ressourcen

Adrian Bulat; Georgios Tzimiropoulos
Binarisierte Faltungs-Landmarkenlokalisatoren für die Schätzung der menschlichen Körperhaltung und das Ausrichten von Gesichtern bei begrenzten Ressourcen
Abstract

Unser Ziel ist es, Architekturen zu entwickeln, die die bahnbrechende Leistungsfähigkeit von CNNs für die Landmark-Lokalisierung beibehalten und gleichzeitig leichtgewichtig, kompakt und für Anwendungen mit begrenzten Rechenressourcen geeignet sind. Zu diesem Zweck leisten wir folgende Beiträge: (a) Wir sind die Ersten, die den Einfluss der Binarisierung neuronaler Netze auf Lokalisierungsaufgaben untersuchen, insbesondere auf der Schätzung menschlicher Pose und der Gesichtsausrichtung. Wir evaluieren verschiedene Designentscheidungen ausführlich, identifizieren Leistungsengpässe und schlagen vor allem mehrere orthogonale Ansätze vor, um die Leistung zu steigern. (b) Auf Basis unserer Analyse schlagen wir eine neuartige hierarchische, parallele und mehrskalige Residualarchitektur vor, die im Vergleich zum Standard-Bottleneck-Block eine erhebliche Leistungsverbesserung bietet, während sie gleichzeitig dieselbe Anzahl an Parametern aufweist. Dies schließt die Lücke zwischen dem ursprünglichen Netzwerk und dessen binarisierter Variante. (c) Wir führen zahlreiche Abschabestudien durch, die Licht auf die Eigenschaften und die Leistung des vorgeschlagenen Blocks werfen. (d) Wir präsentieren Experimente mit den anspruchsvollsten Datensätzen für die Schätzung menschlicher Pose und Gesichtsausrichtung und melden in vielen Fällen den aktuellen Stand der Technik. Der Quellcode kann unter https://www.adrianbulat.com/binary-cnn-landmarks heruntergeladen werden.