Hierarchische binäre CNNs für die Landmarkenlokalisation mit begrenzten Ressourcen

Unser Ziel ist es, Architekturen zu entwickeln, die die bahnbrechende Leistung von Faltungsneuronalen Netzen (Convolutional Neural Networks, CNNs) für die Landmark-Lokalisierung beibehalten und gleichzeitig leichtgewichtig, kompakt und für Anwendungen mit begrenzten Rechenressourcen geeignet sind. Zu diesem Zweck leisten wir folgende Beiträge:(a) Wir sind die Ersten, die den Einfluss der Binarisierung neuronaler Netze auf Lokalisierungsaufgaben untersuchen, insbesondere auf der Schätzung menschlicher Pose und der Gesichtsausrichtung. Wir evaluieren verschiedene Designentscheidungen umfassend, identifizieren Leistungsengpässe und schlagen wichtigerweise mehrere orthogonale Ansätze vor, um die Leistung zu steigern.(b) Auf Basis unserer Analyse schlagen wir eine neuartige hierarchische, parallele und mehrskalige Residual-Architektur vor, die im Vergleich zum Standard-Bottleneck-Block eine erhebliche Leistungsverbesserung bietet, während sie gleichzeitig dieselbe Anzahl an Parametern hat. Dies schließt die Lücke zwischen dem ursprünglichen Netzwerk und dessen binarisierter Variante.(c) Wir führen zahlreiche Abschweifungsstudien durch, die Aufschluss über die Eigenschaften und die Leistung des vorgeschlagenen Blocks geben.(d) Wir präsentieren Experimentsergebnisse auf den anspruchsvollsten Datensätzen für die Schätzung menschlicher Pose und Gesichtsausrichtung und berichten in vielen Fällen über den aktuellen Stand der Technik (state-of-the-art performance).(e) Darüber hinaus liefern wir zusätzliche Ergebnisse für das Problem der Segmentierung von Gesichtsteilen. Der Quellcode kann unter https://www.adrianbulat.com/binary-cnn-landmark heruntergeladen werden.