HyperAIHyperAI

Command Palette

Search for a command to run...

Alignements visuels-sémantiques profonds pour la génération de descriptions d'images

Andrej Karpathy Li Fei-Fei

Résumé

Nous présentons un modèle capable de générer des descriptions en langage naturel d'images et de leurs régions. Notre approche exploite des jeux de données comprenant des images et leurs descriptions en phrases pour apprendre les correspondances inter-modales entre le langage et les données visuelles. Notre modèle d'alignement repose sur une combinaison novatrice de Réseaux Neuronaux Convolutifs appliqués aux régions d'images, de Réseaux Neuronaux Récursifs bidirectionnels appliqués aux phrases, et d'un objectif structuré qui aligne les deux modalités à travers un plongement multimodal. Nous décrivons ensuite une architecture de Réseaux Neuronaux Récursifs Multimodaux qui utilise les alignements inférés pour apprendre à générer de nouvelles descriptions des régions d'images. Nous montrons que notre modèle d'alignement produit des résultats au niveau de l'état de l'art dans les expériences de recherche sur les jeux de données Flickr8K, Flickr30K et MSCOCO. Enfin, nous démontrons que les descriptions générées surpassent considérablement les méthodes basées sur la recherche, tant pour les images complètes que pour un nouveau jeu de données d'annotations au niveau des régions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Alignements visuels-sémantiques profonds pour la génération de descriptions d'images | Articles | HyperAI