Le simple copier-coller est une méthode efficace d'augmentation de données pour la segmentation d'instances

La construction de modèles de segmentation d'instances efficaces en données et capables de traiter des catégories d'objets rares constitue un défi important en vision par ordinateur. L'exploitation des augmentations de données apparaît comme une voie prometteuse pour relever ce défi. Dans ce travail, nous menons une étude systématique de l'augmentation Copy-Paste ([13, 12]) pour la segmentation d'instances, où des objets sont collés aléatoirement sur une image. Les études antérieures sur Copy-Paste reposaient sur la modélisation du contexte visuel environnant pour positionner les objets. Toutefois, nous constatons que le mécanisme simple de collage aléatoire des objets s'avère suffisant et peut apporter des gains significatifs par rapport à des modèles de référence robustes. En outre, nous montrons que Copy-Paste est compatible avec les méthodes semi-supervisées qui exploitent des données supplémentaires via l'étiquetage par pseudo-étiquettes (par exemple, l'auto-entraînement). Sur le benchmark COCO pour la segmentation d'instances, nous atteignons un score de 49,1 mask AP et 57,3 box AP, soit une amélioration de +0,6 mask AP et +1,5 box AP par rapport à l'état de l'art précédent. Nous démontrons également que Copy-Paste permet des progrès importants sur le benchmark LVIS. Notre modèle de base dépasse l'entrée gagnante du défi LVIS 2020 de +3,6 mask AP sur les catégories rares.