HyperAIHyperAI

Command Palette

Search for a command to run...

Récupération d'images à partir de textes composés sans apprentissage supervisé

Yikun Liu Jiangchao Yao Ya Zhang Yanfeng Wang Weidi Xie

Résumé

Dans cet article, nous abordons le problème de la recherche d'images composites (CIR), qui vise à former un modèle capable de fusionner des informations multimodales, par exemple du texte et des images, afin de récupérer avec précision les images correspondant à la requête, ce qui étend la capacité d'expression de l'utilisateur. Nous apportons les contributions suivantes : (i) nous initions une chaîne de traitement évolutif pour construire automatiquement des ensembles de données destinés à l'entraînement du modèle CIR, en exploitant simplement un ensemble de données à grande échelle d'images-texte, par exemple un sous-ensemble de LAION-5B ; (ii) nous présentons un modèle d'agrégation adaptative basé sur les transformateurs, appelé TransAgg, qui utilise un mécanisme de fusion simple mais efficace pour combiner de manière adaptative les informations provenant de diverses modalités ; (iii) nous menons des études d'ablation approfondies pour examiner l'utilité de notre procédure proposée de construction des données et l'efficacité des composants clés dans TransAgg ; (iv) lors de l'évaluation sur des benchmarks publics dans un scénario zero-shot, c'est-à-dire en formant le modèle sur des ensembles de données construits automatiquement puis en effectuant directement l'inférence sur des ensembles de données cibles amont tels que CIRR et FashionIQ, notre approche proposée soit se compare favorablement aux modèles existants les plus performants (SOTA), soit les dépasse significativement. Page du projet : https://code-kunkun.github.io/ZS-CIR/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Récupération d'images à partir de textes composés sans apprentissage supervisé | Articles | HyperAI