HyperAIHyperAI
il y a 2 mois

Montrer et raconter : Un générateur de légendes d'images neuronal

Oriol Vinyals; Alexander Toshev; Samy Bengio; Dumitru Erhan
Montrer et raconter : Un générateur de légendes d'images neuronal
Résumé

La description automatique du contenu d'une image est un problème fondamental en intelligence artificielle qui relie la vision par ordinateur et le traitement du langage naturel. Dans cet article, nous présentons un modèle génératif basé sur une architecture récurrente profonde qui combine les récents progrès en vision par ordinateur et en traduction automatique, et qui peut être utilisé pour générer des phrases naturelles décrivant une image. Le modèle est formé pour maximiser la probabilité de la phrase descriptive cible étant donné l'image d'entraînement. Des expériences menées sur plusieurs jeux de données montrent la précision du modèle ainsi que la fluidité du langage qu'il apprend uniquement à partir des descriptions d'images. Notre modèle est souvent très précis, ce que nous vérifions tant qualitativement que quantitativement. Par exemple, alors que le score BLEU-1 actuel (plus il est élevé, mieux c'est) sur le jeu de données Pascal est de 25, notre approche obtient un score de 59, comparable aux performances humaines d'environ 69. Nous montrons également des améliorations du score BLEU-1 sur Flickr30k, passant de 56 à 66, et sur SBU, passant de 19 à 28. Enfin, sur le nouveau jeu de données COCO, nous obtenons un BLEU-4 de 27,7, ce qui constitue actuellement l'état de l'art.

Montrer et raconter : Un générateur de légendes d'images neuronal | Articles de recherche récents | HyperAI