Génération de graphes de scène à grains fins avec transfert de données

La génération de graphes de scène (SGG) est conçue pour extraire des triplets (sujet, prédicat, objet) dans les images. Les travaux récents ont permis des progrès constants en matière de SGG et offrent des outils utiles pour la compréhension visuelle et linguistique de haut niveau. Cependant, en raison des problèmes de distribution des données, notamment la distribution à queue longue et l'ambiguïté sémantique, les prédictions actuelles des modèles SGG tendent à se concentrer sur quelques prédicats fréquents mais peu informatifs (par exemple, sur, à), ce qui limite leur application pratique dans les tâches en aval. Pour remédier à ces problèmes, nous proposons une nouvelle méthode de transfert interne et externe de données (IETrans), qui peut être appliquée de manière plug-and-play et étendue à un grand SGG avec 1 807 classes de prédicats. Notre méthode IETrans vise à atténuer le problème de distribution des données en créant automatiquement un ensemble de données amélioré qui fournit des annotations plus suffisantes et cohérentes pour tous les prédicats. En s'entraînant sur cet ensemble de données amélioré, un modèle Neural Motif double les performances macro tout en maintenant des performances micro compétitives. Le code et les données sont disponibles au public sur https://github.com/waxnkw/IETrans-SGG.pytorch.