il y a 4 mois

Résumé

Les expériences classiques sur les analogies sémantiques montrent que les vecteurs de mots récents captent des régularités linguistiques fines au moyen d'offsets vectoriels linéaires, mais il reste incertain dans quelle mesure ces offsets simples peuvent encoder des régularités visuelles au sein des mots. Dans cet article, nous étudions une relation particulière entre images et mots, à savoir la pertinence d'un mot par rapport à une image donnée. Nos résultats montrent que les vecteurs de mots des étiquettes pertinentes pour une image donnée se situent en tête des étiquettes non pertinentes, selon une direction principale dans l'espace vectoriel des mots. Inspirés de cette observation, nous proposons de résoudre le problème d'annotation d'images en estimant la direction principale associée à une image. Plus précisément, nous exploitons des applications linéaires ainsi que des réseaux de neurones profonds non linéaires afin d'approcher cette direction principale à partir d'une image d'entrée. Nous obtenons ainsi un modèle d'annotation très polyvalent : il s'exécute rapidement sur une image de test, en temps constant par rapport à la taille de l'ensemble d'apprentissage. Ce modèle non seulement obtient des performances supérieures sur la tâche classique d'annotation d'images sur le jeu de données NUS-WIDE, mais dépasse également les méthodes de référence sur l'annotation d'images par des étiquettes inédites.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Vision Par Ordinateur

Multimodal

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Zhang Yang Gong Boqing Shah Mubarak

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 mois

Vision Par Ordinateur

Multimodal

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Zhang Yang Gong Boqing Shah Mubarak

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Marquage d'images zéro-shot rapide | Articles | HyperAI

Command Palette

Marquage d'images zéro-shot rapide

Zhang Yang Gong Boqing Shah Mubarak

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Marquage d'images zéro-shot rapide

Zhang Yang Gong Boqing Shah Mubarak

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Marquage d'images zéro-shot rapide

Zhang Yang Gong Boqing Shah Mubarak

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters