HyperAIHyperAI

Command Palette

Search for a command to run...

Récit expert : un modèle génératif piloté par le bon sens pour la narration visuelle

Xu sun Zhiyi Yin Lei LI Xiaodong He Pengcheng Yang Fuli Luo Peng Chen

Résumé

La tâche de narration visuelle (VST) vise à générer un récit cohérent et raisonnable au niveau du paragraphe à partir d’un flux d’images en entrée. Contrairement à une légende (caption), qui constitue une description directe et littérale du contenu visuel, le récit dans le cadre de la VST tend à intégrer de nombreux concepts imaginaires qui ne sont pas présents dans les images elles-mêmes. Cela impose à l’agent IA de raisonner et d’établir des liens avec ces concepts imaginaires en s’appuyant sur des connaissances courantes implicites afin de produire un récit pertinent décrivant le flux d’images. Dans ce travail, nous proposons donc un modèle génératif piloté par des connaissances courantes, dont l’objectif est d’introduire des éléments essentiels de connaissance commune provenant d’une base de connaissances externe. Notre approche extrait tout d’abord un ensemble de graphes de connaissances candidats à partir de cette base. Ensuite, un schéma d’encodage directionnel soigneusement conçu, sensible à la vision, est adopté pour intégrer efficacement les connaissances communes les plus pertinentes. Par ailleurs, nous cherchons à maximiser la similarité sémantique au sein de la sortie durant le processus de décodage, afin d’améliorer la cohérence du texte généré. Les résultats montrent que notre méthode dépasse largement les systèmes de pointe, obtenant une amélioration relative de 29 % sur le score CIDEr. Grâce à l’intégration supplémentaire de connaissances communes et à une fonction objectif fondée sur la pertinence sémantique, les récits générés sont davantage diversifiés et cohérents.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp