il y a 6 mois

Résumé

Dans cet article, nous étudions l’apprentissage compositionnel d’images et de textes pour la recherche d’images. La requête est formulée sous la forme d’une image et d’un texte décrivant les modifications souhaitées à apporter à l’image ; l’objectif consiste à retrouver l’image cible qui satisfait ces modifications tout en ressemblant à l’image de requête, en composant l’information provenant des deux modalités, image et texte. Pour remédier à ce défi, nous proposons une nouvelle architecture conçue spécifiquement pour la tâche de composition image-texte, et montrons que la structure proposée permet d’encoder efficacement les différences entre l’image source et l’image cible, conditionnellement au texte. En outre, nous introduisons une nouvelle technique d’entraînement conjoint qui repose sur les réseaux de convolution sur graphe, applicable de manière générale à tout méthode de composition existante de manière plug-and-play. Nous constatons que cette technique améliore de manière cohérente les performances et atteint des résultats de pointe sur diverses bases de données. Afin d’éviter des résultats expérimentaux biaisés dus à des hyperparamètres d’entraînement triviaux, nous réimplémentons toutes les méthodes de référence individuellement et entraînons les modèles dans un environnement d’entraînement unifié. Nous pensons que cette approche permet de réduire les effets indésirables provenant de composants non pertinents et de mettre davantage en évidence la capacité du module de composition image-texte. En outre, nous atteignons un score de pointe sans restreindre l’environnement d’entraînement, ce qui témoigne de l’efficacité de notre méthode, même en tenant compte des gains issus de l’optimisation des hyperparamètres. Le code, incluant toutes les méthodes de référence, est disponible à l’adresse suivante : https://github.com/nashory/rtic-gcn-pytorch.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Réseau De Neurones Convolutif

Approche/Framework

Multimodal

Tâche

Minchul Shin Yoonjae Cho Byungsoo Ko Geonmo Gu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Réseau De Neurones Convolutif

Approche/Framework

Multimodal

Tâche

Minchul Shin Yoonjae Cho Byungsoo Ko Geonmo Gu

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

RTIC : Apprentissage par résidu pour la composition texte-image utilisant un réseau de convolution sur graphe

Minchul Shin Yoonjae Cho Byungsoo Ko Geonmo Gu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RTIC : Apprentissage par résidu pour la composition texte-image utilisant un réseau de convolution sur graphe

Minchul Shin Yoonjae Cho Byungsoo Ko Geonmo Gu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

RTIC : Apprentissage par résidu pour la composition texte-image utilisant un réseau de convolution sur graphe

Minchul Shin Yoonjae Cho Byungsoo Ko Geonmo Gu

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters