Récupération des graphes de scène non biaisés à partir des biaisés

Étant donné des images d'entrée, la génération de graphes de scène (SGG) vise à produire des représentations graphiques complètes décrivant les relations visuelles entre les objets saillants. Récemment, plus d'efforts ont été consacrés au problème de la queue longue dans la SGG ; cependant, l'imbalance dans la proportion de labels manquants pour différentes classes, ou biais de rapport, qui aggrave encore ce problème de queue longue, est rarement pris en compte et ne peut pas être résolu par les méthodes actuelles de débiaisage. Dans cet article, nous montrons que, en raison des labels manquants, la SGG peut être considérée comme un problème d'« Apprentissage à partir de données positives et non étiquetées » (PU learning), où le biais de rapport peut être éliminé en récupérant les probabilités non biaisées à partir des probabilités biaisées en utilisant les fréquences des labels, c'est-à-dire la fraction par classe des exemples positifs étiquetés parmi tous les exemples positifs. Pour obtenir des estimations précises des fréquences des labels, nous proposons une estimation dynamique des fréquences des labels (DLFE) afin d'exploiter l'augmentation des données pendant l'entraînement et de faire une moyenne sur plusieurs itérations d'entraînement pour introduire davantage d'exemples valides. Des expériences approfondies montrent que le DLFE est plus efficace pour estimer les fréquences des labels qu'une variante naïve de l'estimation traditionnelle, et que le DLFE atténue considérablement la queue longue et obtient des performances de débiaisage de pointe sur l'ensemble de données VG. Nous montrons également qualitativement que les modèles SGG avec DLFE produisent des graphes de scène nettement plus équilibrés et non biaisés.