HyperAIHyperAI

Command Palette

Search for a command to run...

Dense Relational Image Captioning via Multi-task Triple-Stream Networks Génération dense de légendes relationnelles pour les images par des réseaux multi-tâches à trois flux

Dong-Jin Kim Tae-Hyun Oh Jinsoo Choi In So Kweon

Résumé

Nous présentons le captionnement relationnel dense, une nouvelle tâche de légendage d'images visant à générer plusieurs légendes en fonction des informations relationnelles entre les objets dans une scène visuelle. Le captionnement relationnel fournit des descriptions explicites pour chaque relation entre les combinaisons d'objets. Ce cadre est avantageux tant en diversité qu'en quantité d'informations, conduisant à une compréhension exhaustive de l'image basée sur les relations, par exemple la génération de propositions relationnelles. Pour comprendre les relations entre les objets, la catégorie grammaticale (POS ; c'est-à-dire catégories sujet-objet-prédicat) peut être une information précieuse pour guider la séquence causale des mots dans une légende. Nous imposons à notre cadre d'apprendre non seulement à générer des légendes mais aussi à comprendre la catégorie grammaticale de chaque mot. À cette fin, nous proposons le réseau multi-tâches à trois flux (MTTSNet) qui se compose de trois unités récurrentes responsables de chaque POS et qui est formé en prédiction conjointe des légendes correctes et des POS pour chaque mot. De plus, nous avons constaté que les performances du MTTSNet peuvent être améliorées en modulant les plongements d'objets avec un module relationnel explicite. Nous démontrons que notre modèle proposé peut générer des légendes plus diversifiées et riches, grâce à une analyse expérimentale approfondie sur de grands ensembles de données et plusieurs métriques. Ensuite, nous présentons des applications de notre cadre au captionnement d'images holistique, à la génération de graphes scéniques et aux tâches de recherche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp