HyperAIHyperAI

Command Palette

Search for a command to run...

Dense Relational Captioning : Réseaux à Triple Flux pour la Légendage Basé sur les Relations

Dong-Jin Kim Jinsoo Choi Tae-Hyun Oh In So Kweon

Résumé

Notre objectif dans ce travail est de former un modèle de légendage d'images capable de générer des légendes plus denses et informatives. Nous introduisons le « légendage relationnel » (relational captioning), une nouvelle tâche de légendage d'images visant à produire plusieurs légendes en fonction des informations relationnelles entre les objets présents dans une image. Le légendage relationnel est un cadre qui présente l'avantage de diversifier et d'augmenter la quantité d'informations, conduisant ainsi à une compréhension des images basée sur les relations entre leurs éléments. Des étiquettes de classe grammaticale (POS, c'est-à-dire catégories sujet-objet-prédicat) peuvent être attribuées à chaque mot en anglais. Nous utilisons ces POS comme un a priori pour guider la séquence correcte des mots dans une légende. À cette fin, nous proposons un réseau multi-tâches à trois flux (MTTSNet) composé de trois unités récurrentes dédiées aux POS respectifs, effectuant conjointement la prédiction des POS et le légendage. Nous montrons que le modèle proposé génère des représentations plus diversifiées et riches par rapport à plusieurs modèles de base et méthodes concurrentes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp