il y a 8 mois

Résumé

La génération de graphes de scène (Scene Graph Generation), qui suit généralement une architecture d'encodeur-décodeur classique, vise à encoder d'abord les contenus visuels présents dans l'image donnée, puis à les analyser en un graphe résumé compact. Les approches existantes en génération de graphes de scène (SGG) négligent non seulement la fusion modale insuffisante entre la vision et le langage, mais échouent également à fournir des prédicats informatifs en raison de prédictions relationnelles biaisées, ce qui rend la SGG loin d'être pratique. Pour remédier à cela, nous présentons dans cet article un nouveau réseau Stacked Hybrid-Attention, qui facilite l'affinement intra-modal ainsi que l'interaction inter-modale, pour servir d'encodeur. Nous élaborons ensuite une stratégie innovante d'apprentissage collaboratif par groupe pour optimiser le décodeur. Plus précisément, sur la base de l'observation que la capacité de reconnaissance d'un classifieur est limitée face à un jeu de données extrêmement déséquilibré, nous déployons d'abord un groupe de classifieurs experts dans la distinction de différents sous-ensembles de classes, puis nous les optimisons coopérativement sous deux angles pour favoriser une SGG sans biais. Les expériences menées sur les jeux de données VG et GQA montrent que nous établissons non seulement un nouveau niveau d'excellence selon la métrique sans biais, mais que nous doublons presque les performances par rapport à deux méthodes de référence.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Vision Par Ordinateur

Multimodal

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Xingning Dong Tian Gan Xuemeng Song Jianlong Wu Yuan Cheng Liqiang Nie

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Vision Par Ordinateur

Multimodal

Représentation Multimodale

Multimodal

Vision Par Ordinateur

Tâche

Xingning Dong Tian Gan Xuemeng Song Jianlong Wu Yuan Cheng Liqiang Nie

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Empilement d'attention hybride et apprentissage collaboratif de groupe pour la génération de graphes de scène sans biais | Articles | HyperAI

Command Palette

Empilement d'attention hybride et apprentissage collaboratif de groupe pour la génération de graphes de scène sans biais

Xingning Dong Tian Gan Xuemeng Song Jianlong Wu Yuan Cheng Liqiang Nie

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Empilement d'attention hybride et apprentissage collaboratif de groupe pour la génération de graphes de scène sans biais

Xingning Dong Tian Gan Xuemeng Song Jianlong Wu Yuan Cheng Liqiang Nie

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Empilement d'attention hybride et apprentissage collaboratif de groupe pour la génération de graphes de scène sans biais

Xingning Dong Tian Gan Xuemeng Song Jianlong Wu Yuan Cheng Liqiang Nie

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters