HyperAIHyperAI

Command Palette

Search for a command to run...

Récit visuel par la prédiction des embeddings de mots-clés dans les récits

Bowen Zhang Hexiang Hu Fei Sha

Résumé

Nous proposons un modèle d'apprentissage pour la tâche de narration visuelle. L'idée principale consiste à prédire des embeddings de mots-clés à partir des images, puis à utiliser conjointement ces embeddings et les caractéristiques d'images pour générer des phrases narratives. Nous utilisons les embeddings de noms choisis aléatoirement dans les récits de référence comme cibles pour l'apprentissage du prédicteur. Pour narrer une séquence d'images, nous utilisons les embeddings de mots-clés prédits et les caractéristiques d'images comme entrée conjointe dans un modèle seq2seq. Contrairement aux méthodes de pointe, le modèle proposé est simple dans sa conception, facile à optimiser, et obtient les meilleurs résultats sur la plupart des métriques d'évaluation automatique. En évaluation humaine, la méthode surpasse également les approches concurrentes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Récit visuel par la prédiction des embeddings de mots-clés dans les récits | Articles | HyperAI