HyperAIHyperAI
il y a 2 mois

Apprentissage d'un modèle d'embedding profond pour l'apprentissage par zéro-shot

Li Zhang; Tao Xiang; Shaogang Gong
Apprentissage d'un modèle d'embedding profond pour l'apprentissage par zéro-shot
Résumé

Les modèles d'apprentissage par zéro exemple (ZSL, Zero-Shot Learning) s'appuient sur l'apprentissage d'un espace de plongement conjoint où les descriptions textuelles/semantiques des classes d'objets et les représentations visuelles des images d'objets peuvent être projetées pour une recherche du plus proche voisin. Malgré le succès des réseaux neuronaux profonds qui apprennent un modèle bout-à-bout entre texte et images dans d'autres problèmes de vision, tels que la légendisation d'images, très peu de modèles ZSL profonds existent et ils présentent peu d'avantages par rapport aux modèles ZSL qui utilisent des représentations de caractéristiques profondes mais ne cherchent pas à apprendre un plongement bout-à-bout.Dans cet article, nous soutenons que la clé pour faire réussir les modèles ZSL profonds est de choisir l'espace de plongement approprié. Au lieu de plonger dans un espace sémantique ou intermédiaire, nous proposons d'utiliser l'espace visuel comme espace de plongement. Cela est justifié par le fait que dans cet espace, la recherche ultérieure du plus proche voisin souffre beaucoup moins du problème de centralité (hubness) et devient donc plus efficace. Cette conception de modèle offre également un mécanisme naturel pour fusionner et optimiser conjointement plusieurs modalités sémantiques (par exemple, attributs et descriptions en phrases) de manière bout-à-bout.Des expériences approfondies sur quatre benchmarks montrent que notre modèle surpasse significativement les modèles existants. Le code source est disponible à l'adresse suivante : https://github.com/lzrobots/DeepEmbeddingModel_ZSL