HyperAIHyperAI
il y a 2 mois

Empilement d'attention hybride et apprentissage collaboratif de groupe pour la génération de graphes de scène sans biais

Xingning Dong; Tian Gan; Xuemeng Song; Jianlong Wu; Yuan Cheng; Liqiang Nie
Empilement d'attention hybride et apprentissage collaboratif de groupe pour la génération de graphes de scène sans biais
Résumé

La génération de graphes de scène (Scene Graph Generation), qui suit généralement une architecture d'encodeur-décodeur classique, vise à encoder d'abord les contenus visuels présents dans l'image donnée, puis à les analyser en un graphe résumé compact. Les approches existantes en génération de graphes de scène (SGG) négligent non seulement la fusion modale insuffisante entre la vision et le langage, mais échouent également à fournir des prédicats informatifs en raison de prédictions relationnelles biaisées, ce qui rend la SGG loin d'être pratique. Pour remédier à cela, nous présentons dans cet article un nouveau réseau Stacked Hybrid-Attention, qui facilite l'affinement intra-modal ainsi que l'interaction inter-modale, pour servir d'encodeur. Nous élaborons ensuite une stratégie innovante d'apprentissage collaboratif par groupe pour optimiser le décodeur. Plus précisément, sur la base de l'observation que la capacité de reconnaissance d'un classifieur est limitée face à un jeu de données extrêmement déséquilibré, nous déployons d'abord un groupe de classifieurs experts dans la distinction de différents sous-ensembles de classes, puis nous les optimisons coopérativement sous deux angles pour favoriser une SGG sans biais. Les expériences menées sur les jeux de données VG et GQA montrent que nous établissons non seulement un nouveau niveau d'excellence selon la métrique sans biais, mais que nous doublons presque les performances par rapport à deux méthodes de référence.

Empilement d'attention hybride et apprentissage collaboratif de groupe pour la génération de graphes de scène sans biais | Articles de recherche récents | HyperAI