Réseaux U-Denses Quantifiés pour une Localisation Efficace des Points de Repère

Dans cet article, nous proposons des U-Nets densément connectés quantifiés pour une localisation efficace de repères visuels. L'idée est que les caractéristiques ayant la même signification sémantique sont réutilisées globalement à travers les U-Nets empilés. Cette connectivité dense améliore considérablement le flux d'information, ce qui entraîne une précision accrue de la localisation. Cependant, un design dense classique souffrirait d'un problème critique d'efficacité tant lors de l'entraînement que lors du test. Pour résoudre ce problème, nous proposons tout d'abord une connectivité dense d'ordre K afin de supprimer les raccourcis à longue distance ; ensuite, nous utilisons une mise en œuvre optimisée en mémoire pour augmenter considérablement l'efficacité de l'entraînement et étudions un affinage itératif qui pourrait réduire la taille du modèle de moitié. Enfin, pour diminuer la consommation de mémoire et les opérations à haute précision tant lors de l'entraînement que lors du test, nous quantifions les poids, les entrées et les gradients de notre réseau de localisation à des nombres de faible largeur de bits. Nous validons notre approche dans deux tâches : l'estimation de la posture humaine et l'alignement facial. Les résultats montrent que notre approche atteint une précision de localisation parmi les meilleures actuellement publiées, tout en utilisant environ 70 % moins de paramètres, 98 % moins d'espace modèle et en économisant 75 % de la mémoire d'entraînement par rapport aux autres localiseurs standards. Le code est disponible sur https://github.com/zhiqiangdon/CU-Net.