Dense Relational Image Captioning via Multi-task Triple-Stream Networks Génération dense de légendes relationnelles pour les images par des réseaux multi-tâches à trois flux

Nous présentons le captionnement relationnel dense, une nouvelle tâche de légendage d'images visant à générer plusieurs légendes en fonction des informations relationnelles entre les objets dans une scène visuelle. Le captionnement relationnel fournit des descriptions explicites pour chaque relation entre les combinaisons d'objets. Ce cadre est avantageux tant en diversité qu'en quantité d'informations, conduisant à une compréhension exhaustive de l'image basée sur les relations, par exemple la génération de propositions relationnelles. Pour comprendre les relations entre les objets, la catégorie grammaticale (POS ; c'est-à-dire catégories sujet-objet-prédicat) peut être une information précieuse pour guider la séquence causale des mots dans une légende. Nous imposons à notre cadre d'apprendre non seulement à générer des légendes mais aussi à comprendre la catégorie grammaticale de chaque mot. À cette fin, nous proposons le réseau multi-tâches à trois flux (MTTSNet) qui se compose de trois unités récurrentes responsables de chaque POS et qui est formé en prédiction conjointe des légendes correctes et des POS pour chaque mot. De plus, nous avons constaté que les performances du MTTSNet peuvent être améliorées en modulant les plongements d'objets avec un module relationnel explicite. Nous démontrons que notre modèle proposé peut générer des légendes plus diversifiées et riches, grâce à une analyse expérimentale approfondie sur de grands ensembles de données et plusieurs métriques. Ensuite, nous présentons des applications de notre cadre au captionnement d'images holistique, à la génération de graphes scéniques et aux tâches de recherche.