HyperAIHyperAI
il y a 2 mois

OCNet : Réseau de Contexte d'Objet pour l'Analyse de Scène

Yuhui Yuan; Lang Huang; Jianyuan Guo; Chao Zhang; Xilin Chen; Jingdong Wang
OCNet : Réseau de Contexte d'Objet pour l'Analyse de Scène
Résumé

Dans cet article, nous abordons la tâche de segmentation sémantique avec un nouveau schéma d'agrégation de contexte nommé \emph{contexte objet}, qui se concentre sur l'amélioration du rôle des informations objets. Motivés par le fait que la catégorie de chaque pixel est héritée de l'objet auquel il appartient, nous définissons le contexte objet pour chaque pixel comme l'ensemble des pixels appartenant à la même catégorie que le pixel donné dans l'image. Nous utilisons une matrice de relation binaire pour représenter la relation entre tous les pixels, où la valeur un indique que les deux pixels sélectionnés appartiennent à la même catégorie et zéro sinon.Nous proposons d'utiliser une matrice de relation dense comme substitut à la matrice de relation binaire. La matrice de relation dense est capable d'accentuer la contribution des informations objets, car les scores de relation tendent à être plus élevés sur les pixels objets que sur les autres pixels. Étant donné que l'estimation de la matrice de relation dense nécessite un coût de calcul et une consommation mémoire quadratiques par rapport à la taille d'entrée, nous proposons un schéma efficace d'auto-attention parcimonieuse entrelacée pour modéliser les relations denses entre n'importe quels deux pixels parmi tous les pixels grâce à la combinaison de deux matrices de relation parcimonieuses.Pour capturer des informations contextuelles plus riches, nous combinons notre schéma d'auto-attention parcimonieuse entrelacée avec les méthodes traditionnelles de contexte multi-échelle, notamment le regroupement pyramidal~\citep{zhao2017pyramid} et le regroupement pyramidal spatial atrous~\citep{chen2018deeplab}. Nous démontrons empiriquement les avantages de notre approche en obtenant des performances compétitives sur cinq benchmarks difficiles, incluant : Cityscapes, ADE20K, LIP, PASCAL-Context et COCO-Stuff.