Réseau pyramidale de caractéristiques bidirectionnel avec modules récurrents d’attention résiduelle pour la détection des ombres

Cet article présente un réseau permettant de détecter les ombres en explorant et en combinant le contexte global présent dans les couches profondes et le contexte local présent dans les couches superficielles d’un réseau neuronal convolutif profond (CNN). Deux contributions techniques sont au cœur de notre conception de réseau. Premièrement, nous proposons le module d’attention récurrente résiduelle (RAR), conçu pour combiner les contextes provenant de deux couches adjacentes du CNN et apprendre une carte d’attention afin de sélectionner un résidu, puis d’affiner les caractéristiques contextuelles. Deuxièmement, nous développons un réseau pyramidale à caractéristiques bidirectionnelles (BFPN), qui agrège les contextes relatifs aux ombres répartis sur différentes couches du CNN en mettant en œuvre deux séries de modules RAR dans le réseau afin de combiner et d’affiner itérativement les caractéristiques contextuelles : une série permettant d’affiner les caractéristiques depuis les couches profondes vers les couches superficielles, et une autre dans le sens inverse, des couches superficielles vers les couches profondes. Grâce à cette architecture, nous parvenons simultanément à mieux supprimer les détections erronées et à améliorer les détails des ombres. Nous évaluons notre réseau sur deux jeux de données standards pour la détection des ombres : SBU et UCF. Les résultats expérimentaux montrent que notre méthode dépasse la meilleure méthode existante, avec une réduction de 34,88 % du taux d’erreur équilibré sur SBU et de 34,57 % sur UCF.