HyperAIHyperAI
il y a 17 jours

RTIC : Apprentissage par résidu pour la composition texte-image utilisant un réseau de convolution sur graphe

Minchul Shin, Yoonjae Cho, Byungsoo Ko, Geonmo Gu
RTIC : Apprentissage par résidu pour la composition texte-image utilisant un réseau de convolution sur graphe
Résumé

Dans cet article, nous étudions l’apprentissage compositionnel d’images et de textes pour la recherche d’images. La requête est formulée sous la forme d’une image et d’un texte décrivant les modifications souhaitées à apporter à l’image ; l’objectif consiste à retrouver l’image cible qui satisfait ces modifications tout en ressemblant à l’image de requête, en composant l’information provenant des deux modalités, image et texte. Pour remédier à ce défi, nous proposons une nouvelle architecture conçue spécifiquement pour la tâche de composition image-texte, et montrons que la structure proposée permet d’encoder efficacement les différences entre l’image source et l’image cible, conditionnellement au texte. En outre, nous introduisons une nouvelle technique d’entraînement conjoint qui repose sur les réseaux de convolution sur graphe, applicable de manière générale à tout méthode de composition existante de manière plug-and-play. Nous constatons que cette technique améliore de manière cohérente les performances et atteint des résultats de pointe sur diverses bases de données. Afin d’éviter des résultats expérimentaux biaisés dus à des hyperparamètres d’entraînement triviaux, nous réimplémentons toutes les méthodes de référence individuellement et entraînons les modèles dans un environnement d’entraînement unifié. Nous pensons que cette approche permet de réduire les effets indésirables provenant de composants non pertinents et de mettre davantage en évidence la capacité du module de composition image-texte. En outre, nous atteignons un score de pointe sans restreindre l’environnement d’entraînement, ce qui témoigne de l’efficacité de notre méthode, même en tenant compte des gains issus de l’optimisation des hyperparamètres. Le code, incluant toutes les méthodes de référence, est disponible à l’adresse suivante : https://github.com/nashory/rtic-gcn-pytorch.

RTIC : Apprentissage par résidu pour la composition texte-image utilisant un réseau de convolution sur graphe | Articles de recherche récents | HyperAI