Segmentation panoptique alignée sur la tâche et sensible aux parties grâce à des représentations conjointes d'objet-partie

La segmentation panoramique par parties (Part-aware Panoptic Segmentation, PPS) nécessite (a) que chaque objet premier plan et chaque région d'arrière-plan dans une image soient segmentés et classifiés, et (b) que toutes les parties au sein des objets du premier plan soient également segmentées, classifiées et liées à leur objet parent. Les méthodes existantes abordent la PPS en effectuant séparément la segmentation au niveau des objets et celle au niveau des parties. Cependant, leurs prédictions au niveau des parties ne sont pas liées aux objets parents individuels. Par conséquent, leur objectif d'apprentissage n'est pas aligné avec l'objectif de la tâche PPS, ce qui nuit aux performances de la PPS. Pour résoudre ce problème et améliorer la précision des prédictions de PPS, nous proposons la segmentation panoramique par parties alignée sur la tâche (Task-Aligned Part-aware Panoptic Segmentation, TAPPS). Cette méthode utilise un ensemble de requêtes partagées pour prédire conjointement (a) les segments au niveau des objets, et (b) les segments au niveau des parties au sein de ces mêmes objets. Ainsi, TAPPS apprend à prédire des segments au niveau des parties liés à des objets parents individuels, alignant l'objectif d'apprentissage avec celui de la tâche et permettant à TAPPS d'exploiter des représentations conjointes objet-partie. Nos expériences montrent que TAPPS surpasse considérablement les méthodes qui prédise nt les objets et les parties séparément, et atteint de nouveaux résultats d'état de l'art en PPS.