Génération de graphes de scène panoptiques avec apprentissage par prototypes sémantiques

La génération de graphes de scène panoptiques (PSG) analyse les objets et prédit leurs relations (prédicats) pour relier le langage humain et les scènes visuelles. Cependant, les préférences linguistiques différentes des annotateurs et les chevauchements sémantiques entre les prédicats entraînent des annotations de prédicats biaisées dans le jeu de données, c'est-à-dire des prédicats différents pour des paires d'objets identiques. Ces annotations de prédicats biaisées rendent difficile la construction d'un plan de décision clair parmi les prédicats, ce qui entrave considérablement l'application réelle des modèles PSG. Pour remédier à ce biais intrinsèque, nous proposons un nouveau cadre nommé ADTrans, capable de transférer de manière adaptative les annotations de prédicats biaisées vers des annotations informatives et unifiées. Afin de garantir la cohérence et la précision lors du processus de transfert, nous proposons de mesurer l'invariance des représentations dans chaque classe de prédicat et d'apprendre des prototypes non biaisés de prédicats avec différentes intensités. Parallèlement, nous mesurons continuellement les changements de distribution entre chaque représentation et son prototype, en filtrant constamment les données potentiellement biaisées. Enfin, grâce à l'espace d'embedding des représentations non biaisées des prototypes de prédicats, les annotations biaisées sont facilement identifiées. Les expériences montrent que ADTrans améliore significativement les performances des modèles基准 (benchmark), atteignant une nouvelle performance state-of-the-art, et démontre une grande généralisation et efficacité sur plusieurs jeux de données.注:在最后一句中,“基准”一词在法语中通常翻译为“référence”或“étalon”,但为了保留科技领域的专业术语,我选择了“benchmark”。如果您希望使用更地道的法语词汇,可以将其替换为“référence”。