il y a 7 mois

Résumé

Ces dernières années, le problème d’association entre une phrase et une image a suscité un intérêt croissant. Ce travail poursuit l’exploration des limites actuelles et réalise des progrès supplémentaires en matière de performance pour les tâches d’annotation d’images et de recherche d’images à partir d’une phrase. Dans cette étude, nous utilisons le vecteur de Fisher comme représentation de phrase en agrégant les embeddings word2vec de chaque mot de la phrase. Le vecteur de Fisher est généralement défini comme les gradients de la log-vraisemblance descripteurs par rapport aux paramètres d’un modèle de mélanges de gaussiennes (GMM). Dans ce travail, nous présentons deux autres modèles de mélanges et en dérivons respectivement les expressions de l’algorithme d’expectation-maximisation et du vecteur de Fisher. Le premier est un modèle de mélanges de Laplace (LMM), fondé sur la distribution de Laplace. Le second modèle de mélange proposé est un modèle hybride gaussien-laplacien (HGLMM), basé sur une moyenne géométrique pondérée des distributions gaussienne et de Laplace. Enfin, en utilisant les nouveaux vecteurs de Fisher dérivés des HGLMM pour représenter les phrases, nous obtenons des résultats de pointe pour les tâches d’annotation d’images et de recherche d’images par phrase sur quatre benchmarks : Pascal1K, Flickr8K, Flickr30K et COCO.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Représentation Multimodale

Décrivain D'image

Multimodal

Tâche

Gil Sadeh Benjamin Klein Lior Wolf Guy Lev

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 7 mois

Multimodal

Représentation Multimodale

Décrivain D'image

Multimodal

Tâche

Gil Sadeh Benjamin Klein Lior Wolf Guy Lev

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Association de représentations de mots neurales avec des représentations d’image profondes à l’aide de vecteurs de Fisher

Gil Sadeh Benjamin Klein Lior Wolf Guy Lev

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Association de représentations de mots neurales avec des représentations d’image profondes à l’aide de vecteurs de Fisher

Gil Sadeh Benjamin Klein Lior Wolf Guy Lev

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Association de représentations de mots neurales avec des représentations d’image profondes à l’aide de vecteurs de Fisher

Gil Sadeh Benjamin Klein Lior Wolf Guy Lev

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters