HyperAIHyperAI

Command Palette

Search for a command to run...

RTIC : Apprentissage par résidu pour la composition texte-image utilisant un réseau de convolution sur graphe

Minchul Shin Yoonjae Cho Byungsoo Ko Geonmo Gu

Résumé

Dans cet article, nous étudions l’apprentissage compositionnel d’images et de textes pour la recherche d’images. La requête est formulée sous la forme d’une image et d’un texte décrivant les modifications souhaitées à apporter à l’image ; l’objectif consiste à retrouver l’image cible qui satisfait ces modifications tout en ressemblant à l’image de requête, en composant l’information provenant des deux modalités, image et texte. Pour remédier à ce défi, nous proposons une nouvelle architecture conçue spécifiquement pour la tâche de composition image-texte, et montrons que la structure proposée permet d’encoder efficacement les différences entre l’image source et l’image cible, conditionnellement au texte. En outre, nous introduisons une nouvelle technique d’entraînement conjoint qui repose sur les réseaux de convolution sur graphe, applicable de manière générale à tout méthode de composition existante de manière plug-and-play. Nous constatons que cette technique améliore de manière cohérente les performances et atteint des résultats de pointe sur diverses bases de données. Afin d’éviter des résultats expérimentaux biaisés dus à des hyperparamètres d’entraînement triviaux, nous réimplémentons toutes les méthodes de référence individuellement et entraînons les modèles dans un environnement d’entraînement unifié. Nous pensons que cette approche permet de réduire les effets indésirables provenant de composants non pertinents et de mettre davantage en évidence la capacité du module de composition image-texte. En outre, nous atteignons un score de pointe sans restreindre l’environnement d’entraînement, ce qui témoigne de l’efficacité de notre méthode, même en tenant compte des gains issus de l’optimisation des hyperparamètres. Le code, incluant toutes les méthodes de référence, est disponible à l’adresse suivante : https://github.com/nashory/rtic-gcn-pytorch.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
RTIC : Apprentissage par résidu pour la composition texte-image utilisant un réseau de convolution sur graphe | Articles | HyperAI