il y a 7 mois

Résumé

Un problème rencontré dans les récits générés automatiquement à partir de séquences d’images est qu’ils utilisent un vocabulaire trop générique et des structures de phrases peu variées, tout en échouant à reproduire les caractéristiques distributionnelles du texte produit par des humains. Pour résoudre ce problème, nous introduisons des représentations explicites des objets et de leurs relations en extrayant des graphes de scène à partir des images. L’utilisation d’un embedding de ces graphes de scène permet à notre modèle de raisonner de manière plus explicite sur les objets et leurs relations durant la génération de récits, en comparaison avec les caractéristiques globales issues d’un classificateur d’objets employées dans les travaux antérieurs. Nous mettons en œuvre des métriques prenant en compte la diversité des mots et des expressions dans les récits générés, ainsi que la référence aux caractéristiques visuelles narrativement significatives des images, et montrons que notre approche surpasse les systèmes antérieurs. Nos expériences indiquent également que nos modèles obtiennent des résultats compétitifs selon les métriques basées sur des références.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Décrivain D'image

Multimodal

Compréhension D'images

Multimodal

Vision Par Ordinateur

Tâche

Bernt Schiele Vera Demberg Khushboo Mehra Asad Sayeed Rakshith Shetty Xudong Hong

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Décrivain D'image

Multimodal

Compréhension D'images

Multimodal

Vision Par Ordinateur

Tâche

Bernt Schiele Vera Demberg Khushboo Mehra Asad Sayeed Rakshith Shetty Xudong Hong

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Récits visuels diversifiés et pertinents grâce aux embeddings de graphe de scène

Bernt Schiele Vera Demberg Khushboo Mehra Asad Sayeed Rakshith Shetty Xudong Hong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Récits visuels diversifiés et pertinents grâce aux embeddings de graphe de scène

Bernt Schiele Vera Demberg Khushboo Mehra Asad Sayeed Rakshith Shetty Xudong Hong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Récits visuels diversifiés et pertinents grâce aux embeddings de graphe de scène

Bernt Schiele Vera Demberg Khushboo Mehra Asad Sayeed Rakshith Shetty Xudong Hong

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters