Localiseurs de Landmarks de Convolution Binarisés pour l'Estimation de la Posture Humaine et l'Alignement Facial avec des Ressources Limitées

Notre objectif est de concevoir des architectures qui conservent les performances révolutionnaires des CNNs pour la localisation de points d'intérêt et, en même temps, sont légères, compactes et adaptées aux applications disposant de ressources informatiques limitées. À cette fin, nous apportons les contributions suivantes : (a) nous sommes les premiers à étudier l'effet de la binarisation des réseaux neuronaux sur les tâches de localisation, notamment l'estimation de la posture humaine et l'alignement facial. Nous évaluons exhaustivement diverses options de conception, identifions les goulets d'étranglement en termes de performance et proposons, plus important encore, plusieurs méthodes orthogonales pour améliorer ces performances. (b) Sur la base de notre analyse, nous proposons une nouvelle architecture résiduelle hiérarchique, parallèle et multi-échelle qui offre une amélioration significative des performances par rapport au bloc bottleneck standard tout en ayant le même nombre de paramètres, ce qui permet ainsi de combler l'écart entre le réseau original et sa version binarisée. (c) Nous menons un grand nombre d'études d'ablation qui éclairent les propriétés et les performances du bloc proposé. (d) Nous présentons des résultats d'expériences réalisées sur les jeux de données les plus difficiles pour l'estimation de la posture humaine et l'alignement facial, en signalant dans de nombreux cas des performances à l'état de l'art. Le code peut être téléchargé depuis https://www.adrianbulat.com/binary-cnn-landmarks