HyperAIHyperAI

Command Palette

Search for a command to run...

Narration Visuelle Informative avec Règles Multimodales

Jiacheng Li Haizhou Shi Siliang Tang* Fei Wu Yueting Zhuang

Résumé

Les méthodes existantes dans le domaine du récit visuel souffrent souvent du problème de la génération de descriptions générales, tandis que l'image contient de nombreux contenus significatifs qui restent inaperçus. L'échec de la génération d'histoires informatives peut être attribué à l'incapacité du modèle à capturer suffisamment de concepts pertinents. Ces catégories de concepts incluent les entités, les attributs, les actions et les événements, qui sont parfois cruciaux pour le récit ancré dans l'image. Pour résoudre ce problème, nous proposons une méthode consistant à extraire des règles intermodales afin d'aider le modèle à inférer ces concepts informatiques à partir d'une entrée visuelle donnée. Nous construisons tout d'abord des transactions multimodales en concaténant les activations du CNN (Convolutional Neural Network) et les indices des mots. Ensuite, nous utilisons un algorithme d'extraction de règles d'association pour miner ces règles intermodales, qui seront utilisées pour l'inférence des concepts. Grâce aux règles intermodales, les histoires générées sont plus ancrées et informatives. De plus, notre méthode proposée présente des avantages en termes d'interprétabilité, d'extensibilité et de transférabilité, suggérant un potentiel pour une application plus large. Enfin, nous intégrons ces concepts dans notre cadre encodeur-décodeur avec un mécanisme d'attention. Nous menons plusieurs expériences sur le jeu de données VIsual StoryTelling (VIST), dont les résultats démontrent l'efficacité de notre approche tant en termes de métriques automatiques qu'évaluation humaine. Des expériences supplémentaires montrent également que nos règles intermodales extraites comme connaissances supplémentaires aident le modèle à obtenir de meilleures performances lorsqu'il est formé sur un petit ensemble de données.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Narration Visuelle Informative avec Règles Multimodales | Articles | HyperAI