HyperAIHyperAI
il y a 17 jours

Notion d’incertitude consciente du classement pour la récupération d’images guidée par le texte

Junyang Chen, Hanjiang Lai
Notion d’incertitude consciente du classement pour la récupération d’images guidée par le texte
Résumé

La recherche d’images guidée par texte vise à intégrer un texte conditionnel afin de mieux capturer l’intention des utilisateurs. Traditionnellement, les méthodes existantes se concentrent sur la minimisation des distances entre les embeddings des entrées sources et l’image cible, en utilisant les triplets fournis $\langle$image source, texte source, image cible$\rangle$. Toutefois, une telle optimisation par triplet peut limiter le modèle d’extraction appris à capturer des informations de classement plus détaillées : par exemple, les triplets sont des correspondances un-à-un, et ils ne prennent pas en compte les correspondances plusieurs-à-plusieurs qui émergent de la diversité sémantique des langages de feedback et des images. Pour capturer davantage d’informations de classement, nous proposons une nouvelle approche incertaine orientée vers le classement, capable de modéliser des correspondances plusieurs-à-plusieurs en n’utilisant que les triplets fournis. Nous introduisons l’apprentissage d’incertitude afin d’apprendre une liste de classement stochastique des caractéristiques. Plus précisément, notre approche repose principalement sur trois composantes : (1) l’incertitude intra-échantillon, qui vise à capturer la diversité sémantique à l’aide d’une distribution gaussienne dérivée à la fois des caractéristiques combinées et des caractéristiques cibles ; (2) l’incertitude inter-échantillon, qui exploite davantage les informations de classement issues des distributions d’autres échantillons ; et (3) la régularisation de distribution, qui aligne les représentations distributionnelles des entrées sources et de l’image cible. Par rapport aux méthodes de pointe existantes, notre approche obtient des résultats significativement améliorés sur deux jeux de données publics pour la recherche d’images composées.

Notion d’incertitude consciente du classement pour la récupération d’images guidée par le texte | Articles de recherche récents | HyperAI