HyperAIHyperAI
il y a 17 jours

K-Net : Vers une segmentation d’image unifiée

Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy
K-Net : Vers une segmentation d’image unifiée
Résumé

La segmentation sémantique, instance et panoptique ont été traitées jusqu’à présent à l’aide de cadres spécifiques et distincts, malgré leurs liens fondamentaux. Ce papier présente un cadre unifié, simple et efficace pour ces tâches essentiellement similaires. Ce cadre, nommé K-Net, effectue une segmentation cohérente des instances et des catégories sémantiques à l’aide d’un ensemble de noyaux apprenables, chaque noyau étant chargé de générer un masque pour une instance potentielle ou une classe de « stuff ». Pour surmonter les difficultés liées à la distinction entre différentes instances, nous proposons une stratégie d’actualisation des noyaux qui rend chaque noyau dynamique et conditionnel à son groupe significatif dans l’image d’entrée. K-Net peut être entraîné de manière end-to-end grâce à un appariement biparti, et son entraînement comme son inférence sont naturellement libres de NMS (non-maximum suppression) et de boîtes englobantes (box-free). Sans recourir à des ajouts complexes, K-Net bat tous les résultats précédents publiés de modèles uniques sur la tâche de segmentation panoptique sur le split test-dev de MS COCO (55,2 % PQ) et sur la segmentation sémantique sur le split val de ADE20K (54,3 % mIoU). Son efficacité en segmentation d’instances est également comparable à celle de Cascade Mask R-CNN sur MS COCO, tout en offrant des vitesses d’inférence de 60 à 90 % plus rapides. Le code et les modèles seront publiés à l’adresse suivante : https://github.com/ZwwWayne/K-Net/.