PCPL : Apprentissage de la perception de corrélation prédicative pour une génération de graphes de scène sans biais

Aujourd'hui, la tâche de génération de graphe de scène (SGG) est largement limitée dans des scénarios réalistes, principalement en raison du biais à queue extrêmement longue de la distribution des annotations prédicatives. Ainsi, résoudre le problème d'imbalance des classes dans le SGG est crucial et difficile. Dans cet article, nous découvrons d'abord que lorsque les étiquettes prédicatives sont fortement corrélées entre elles, les stratégies de rééquilibrage courantes (par exemple, le rééchantillonnage et le repondération) peuvent entraîner soit un surajustement des données de la queue (par exemple, un banc assis sur un trottoir plutôt que dessus), soit toujours subir l'effet négatif de la distribution initiale inégale (par exemple, regrouper divers cas comme "garé sur", "debout sur" et "assis sur" en "dessus"). Nous soutenons que la principale raison est que les stratégies de rééquilibrage sont sensibles aux fréquences des prédicats mais aveugles à leur corrélation, qui peut jouer un rôle plus important pour favoriser l'apprentissage des caractéristiques prédicatives. Par conséquent, nous proposons un nouveau schéma d'apprentissage par perception de la corrélation prédicative (PCPL pour faire court) pour rechercher de manière adaptative des poids de perte appropriés en percevant directement et en utilisant la corrélation entre les classes prédicatives. De plus, notre cadre PCPL est doté d'un module encodeur graphique pour extraire les caractéristiques contextuelles avec une meilleure efficacité. Des expériences approfondies sur l'ensemble de données de référence VG150 montrent que le PCPL proposé performe nettement mieux sur les classes de la queue tout en préservant bien les performances sur les classes principales, surpassant ainsi considérablement les méthodes précédentes d'avant-garde.