Contexte et Étiquetage Densément Ancré sur les Attributs

Le captioning dense vise à localiser simultanément des régions sémantiques et à décrire ces régions d'intérêt (ROIs) par de courtes phrases ou des phrases en langage naturel. Les études précédentes ont montré des progrès remarquables, mais elles sont souvent vulnérables au problème d'aperture, selon lequel une légende générée à partir des caractéristiques à l'intérieur d'une ROI manque de cohérence contextuelle avec son environnement dans l'image d'entrée. Dans ce travail, nous examinons la raisonnement contextuel basé sur les propagations multi-échelles du contenu voisin vers les ROIs cibles. À cette fin, nous concevons un nouveau cadre de captioning dense guidé par le contexte et les attributs, composé de 1) un module d'extraction visuelle contextuelle et 2) un module de génération de descriptions guidées par les attributs multi-niveaux. Sachant que les légendes coexistent souvent avec des attributs linguistiques (tels que qui, quoi et où), nous intégrons également une supervision auxiliaire provenant des attributs linguistiques hiérarchiques pour renforcer la distinctivité des légendes apprises. Des expériences approfondies et des études d'ablation sur le jeu de données Visual Genome démontrent la supériorité du modèle proposé par rapport aux méthodes de pointe actuelles.