il y a 6 mois

Résumé

Les modèles fondés sur l’apprentissage profond rencontrent des difficultés lors du traitement de données à distribution longue (long-tailed) dans le monde réel. Les solutions existantes s’appuient généralement sur des stratégies d’équilibrage ou sur le transfert d’apprentissage pour atténuer le problème d’imbalanced class, principalement dans le cadre de la modalité visuelle. Dans ce travail, nous proposons un cadre de reconnaissance à longue queue visuel-linguistique, appelé VL-LTR, et menons des études empiriques sur les bénéfices apportés par l’introduction de la modalité textuelle pour la reconnaissance à longue queue (LTR). Par rapport aux approches existantes, le VL-LTR proposé présente les avantages suivants : (1) notre méthode permet non seulement d’apprendre une représentation visuelle à partir d’images, mais aussi d’extraire une représentation linguistique correspondante à partir de descriptions textuelles de classe bruyantes, collectées sur Internet ; (2) elle exploite efficacement la représentation visuo-linguistique apprise afin d’améliorer les performances de reconnaissance visuelle, en particulier pour les classes peu représentées par des échantillons d’images. Nous avons également mené des expérimentations étendues et établi de nouveaux états de l’art sur des benchmarks largement utilisés pour la LTR. Notamment, notre méthode atteint une précision globale de 77,2 % sur ImageNet-LT, surpassant significativement la meilleure méthode précédente de plus de 17 points, et se rapprochant de la performance atteinte par l’entraînement sur l’intégralité d’ImageNet. Le code est disponible à l’adresse suivante : https://github.com/ChangyaoTian/VL-LTR.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Reconnaissance D'images

Classification D'images

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Reconnaissance D'images

Classification D'images

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

VL-LTR : Apprentissage de représentations visuelles-linguistiques par classe pour la reconnaissance visuelle à longue queue | Articles | HyperAI

Command Palette

VL-LTR : Apprentissage de représentations visuelles-linguistiques par classe pour la reconnaissance visuelle à longue queue

Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VL-LTR : Apprentissage de représentations visuelles-linguistiques par classe pour la reconnaissance visuelle à longue queue

Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VL-LTR : Apprentissage de représentations visuelles-linguistiques par classe pour la reconnaissance visuelle à longue queue

Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters