il y a 6 mois

Résumé

Les expressions de référence sont des descriptions en langage naturel qui identifient un objet particulier au sein d'une scène, et sont largement utilisées dans nos conversations quotidiennes. Dans ce travail, nous nous concentrons sur la segmentation de l'objet dans une image spécifié par une expression de référence. À cette fin, nous proposons un réseau d'acquisition de compréhension entraînable de bout en bout, composé d'un encodeur linguistique et d'un encodeur visuel pour extraire des représentations de caractéristiques à partir des deux domaines. Nous introduisons des filtres dynamiques sensibles à l'espace afin de transférer les connaissances du texte vers l'image, et ainsi capturer efficacement les informations spatiales de l'objet spécifié. Pour améliorer la communication entre les modules linguistique et visuel, nous utilisons un réseau de génération de légende qui prend comme entrée des caractéristiques partagées entre les deux domaines, et améliore les deux représentations grâce à une consistance qui impose que la phrase générée soit similaire à l'expression de référence fournie. Nous évaluons le cadre proposé sur deux jeux de données d'expressions de référence et montrons que notre méthode se distingue favorablement par rapport aux algorithmes de pointe.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Segmentation Sémantique

Décrivain D'image

Multimodal

Vision Par Ordinateur

Tâche

Yi-Wen Chen Yi-Hsuan Tsai Tiantian Wang Yen-Yu Lin Ming-Hsuan Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Multimodal

Segmentation Sémantique

Décrivain D'image

Multimodal

Vision Par Ordinateur

Tâche

Yi-Wen Chen Yi-Hsuan Tsai Tiantian Wang Yen-Yu Lin Ming-Hsuan Yang

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Segmentation d'objets par expression référentielle avec cohérence consciente des légendes

Yi-Wen Chen Yi-Hsuan Tsai Tiantian Wang Yen-Yu Lin Ming-Hsuan Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Segmentation d'objets par expression référentielle avec cohérence consciente des légendes

Yi-Wen Chen Yi-Hsuan Tsai Tiantian Wang Yen-Yu Lin Ming-Hsuan Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Segmentation d'objets par expression référentielle avec cohérence consciente des légendes

Yi-Wen Chen Yi-Hsuan Tsai Tiantian Wang Yen-Yu Lin Ming-Hsuan Yang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters