HyperAIHyperAI

Command Palette

Search for a command to run...

Légendage d'images et réponse à des questions visuelles basés sur les attributs et les connaissances externes

Qi Wu Chunhua Shen Peng Wang Anthony Dick Anton van den Hengel

Résumé

De nombreux progrès récents dans les problèmes de Vision-to-Language ont été réalisés grâce à une combinaison de Réseaux Neuronaux Convolutifs (CNNs) et de Réseaux Neuronaux Récurents (RNNs). Cette approche ne représente pas explicitement des concepts sémantiques de haut niveau, mais cherche plutôt à passer directement des caractéristiques d'image au texte. Dans cet article, nous proposons d'abord une méthode pour intégrer des concepts de haut niveau à l'approche CNN-RNN éprouvée, et montrons qu'elle réalise une amélioration significative par rapport à l'état de l'art en matière de légendage d'images et de réponse à des questions visuelles. Nous démontrons également que le même mécanisme peut être utilisé pour incorporer des connaissances externes, ce qui est particulièrement crucial pour répondre aux questions visuelles de haut niveau. Plus précisément, nous concevons un modèle de réponse à des questions visuelles qui combine une représentation interne du contenu d'une image avec des informations extraites d'une base de connaissances générale pour répondre à un large éventail de questions basées sur des images. Il permet notamment de poser des questions sur le contenu d'une image, même lorsque celle-ci ne contient pas une réponse complète. Notre modèle final obtient les meilleurs résultats rapportés en matière de légendage d'images et de réponse à des questions visuelles sur plusieurs jeux de données de référence.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp