il y a 6 mois

Résumé

Nous abordons la tâche de recherche d’images à partir de feedback textuel, dans laquelle une image de référence et un texte modificateur sont combinés pour identifier l’image cible souhaitée. Nous nous concentrons sur la conception d’un composant image-texte, c’est-à-dire l’intégration d’entrées multimodales afin de produire une représentation similaire à celle de l’image cible. Dans notre algorithme, le Modulateur de Contenu-Style (CoSMo), nous relevons ce défi en introduisant deux modules basés sur des réseaux neuronaux profonds : le modulateur de contenu et le modulateur de style. Le modulateur de contenu effectue des mises à jour locales sur les caractéristiques de l’image de référence après normalisation du style de l’image, en utilisant un bloc non-local déconnecté multimodal pour réaliser les modifications de contenu souhaitées. Ensuite, le modulateur de style réintroduit des informations stylistiques globales dans les caractéristiques mises à jour. Nous présentons une analyse approfondie de notre algorithme et de ses choix de conception, et démontrons qu’il atteint des performances exceptionnelles sur plusieurs benchmarks de recherche d’images-texte. Notre code est disponible à l’adresse suivante : https://github.com/postBG/CosMo.pytorch

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Texte Vers Image

Multimodal

Tâche

Bohyung Han Dongwan Kim Seungmin Lee

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Représentation Multimodale

Texte Vers Image

Multimodal

Tâche

Bohyung Han Dongwan Kim Seungmin Lee

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

CoSMo : modulation contenu-style pour la récupération d’images avec retour textuel

Bohyung Han Dongwan Kim Seungmin Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CoSMo : modulation contenu-style pour la récupération d’images avec retour textuel

Bohyung Han Dongwan Kim Seungmin Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

CoSMo : modulation contenu-style pour la récupération d’images avec retour textuel

Bohyung Han Dongwan Kim Seungmin Lee

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters