HyperAIHyperAI
il y a 7 jours

X-Paste : Repenser le copy-paste évolutif pour la segmentation d'instances en utilisant CLIP et StableDiffusion

Hanqing Zhao, Dianmo Sheng, Jianmin Bao, Dongdong Chen, Dong Chen, Fang Wen, Lu Yuan, Ce Liu, Wenbo Zhou, Qi Chu, Weiming Zhang, Nenghai Yu
X-Paste : Repenser le copy-paste évolutif pour la segmentation d'instances en utilisant CLIP et StableDiffusion
Résumé

Le Copy-Paste est une stratégie simple et efficace d’augmentation de données pour la segmentation d’instances. En collant aléatoirement des instances d’objets sur de nouvelles images de fond, il permet de générer gratuitement de nouvelles données d’entraînement, ce qui améliore considérablement les performances de segmentation, en particulier pour les catégories d’objets rares. Bien que des instances d’objets diverses et de haute qualité entraînent des gains de performance plus importants, les travaux antérieurs s’appuient soit sur des instances annotées manuellement dans des jeux de données de segmentation d’instances, soit sur des objets rendus à partir de modèles 3D — deux approches coûteuses à échelle et peu adaptées à l’obtention d’une grande diversité. Dans cet article, nous reprenons l’approche Copy-Paste à grande échelle grâce à la puissance des nouveaux modèles de reconnaissance zéro-shot (par exemple, CLIP) et des modèles text-to-image (comme Stable Diffusion). Nous démontrons pour la première fois qu’utiliser un modèle text-to-image pour générer des images ou un modèle de reconnaissance zéro-shot pour filtrer des images bruyamment collectées selon différentes catégories d’objets constitue une solution viable pour rendre Copy-Paste véritablement évolutif. Pour permettre ce succès, nous proposons un cadre complet d’acquisition et de traitement des données, baptisé « X-Paste », sur lequel nous menons une étude systématique. Sur le jeu de données LVIS, X-Paste apporte des améliorations remarquables par rapport à la base solide CenterNet2 utilisant Swin-L comme architecture principale. Plus précisément, il obtient des gains de +2,6 AP pour les boîtes englobantes et +2,1 AP pour les masques sur toutes les catégories, ainsi que des gains encore plus significatifs de +6,8 AP pour les boîtes englobantes et +6,5 AP pour les masques sur les classes en queue longue. Nos codes et modèles sont disponibles à l’adresse suivante : https://github.com/yoctta/XPaste.

X-Paste : Repenser le copy-paste évolutif pour la segmentation d'instances en utilisant CLIP et StableDiffusion | Articles de recherche récents | HyperAI