HyperAIHyperAI
il y a 2 mois

Dense Relational Captioning : Réseaux à Triple Flux pour la Légendage Basé sur les Relations

Dong-Jin Kim; Jinsoo Choi; Tae-Hyun Oh; In So Kweon
Dense Relational Captioning : Réseaux à Triple Flux pour la Légendage Basé sur les Relations
Résumé

Notre objectif dans ce travail est de former un modèle de légendage d'images capable de générer des légendes plus denses et informatives. Nous introduisons le « légendage relationnel » (relational captioning), une nouvelle tâche de légendage d'images visant à produire plusieurs légendes en fonction des informations relationnelles entre les objets présents dans une image. Le légendage relationnel est un cadre qui présente l'avantage de diversifier et d'augmenter la quantité d'informations, conduisant ainsi à une compréhension des images basée sur les relations entre leurs éléments. Des étiquettes de classe grammaticale (POS, c'est-à-dire catégories sujet-objet-prédicat) peuvent être attribuées à chaque mot en anglais. Nous utilisons ces POS comme un a priori pour guider la séquence correcte des mots dans une légende. À cette fin, nous proposons un réseau multi-tâches à trois flux (MTTSNet) composé de trois unités récurrentes dédiées aux POS respectifs, effectuant conjointement la prédiction des POS et le légendage. Nous montrons que le modèle proposé génère des représentations plus diversifiées et riches par rapport à plusieurs modèles de base et méthodes concurrentes.

Dense Relational Captioning : Réseaux à Triple Flux pour la Légendage Basé sur les Relations | Articles de recherche récents | HyperAI