Pixel-wise Attentional Gating for Parsimonious Pixel Labeling Gating Attentionnelle Pixel par Pixel pour une Étiquetage de Pixels Économique

Pour réaliser une inférence parcimonieuse dans les tâches d'étiquetage par pixel avec un budget informatique limité, nous proposons une unité de \emph{Gating Attentionnel Pixel par Pixel} (\emph{PAG}) qui apprend à traiter sélectivement un sous-ensemble de positions spatiales à chaque couche d'un réseau convolutif profond. La PAG est un mécanisme générique, indépendant de l'architecture et agnostique du problème, qui peut être facilement « intégré » à un modèle existant avec un ajustement fin. Nous utilisons la PAG de deux manières : 1) en apprenant des champs de regroupement variant spatialement pour améliorer les performances du modèle sans le coût informatique supplémentaire associé au regroupement multi-échelle, et 2) en apprenant une politique de calcul dynamique pour chaque pixel afin de réduire le calcul total tout en maintenant la précision.Nous évaluons exhaustivement la PAG sur une variété de tâches d'étiquetage par pixel, notamment la segmentation sémantique, la détection des contours, l'estimation de profondeur monoculaire et l'estimation des normales de surface. Nous démontrons que la PAG permet des performances compétitives ou de pointe dans ces tâches. Nos expériences montrent que la PAG apprend une allocation spatiale dynamique du calcul sur l'image d'entrée, offrant ainsi de meilleurs compromis en termes de performance comparativement aux approches connexes (par exemple, troncature des modèles profonds ou saut dynamique de couches entières). En général, nous observons que la PAG peut réduire le calcul de $10\%$ sans perte notable de précision et que les performances se dégradent progressivement lorsque des contraintes informatiques plus strictes sont imposées.