Segmentation d'objets de haute qualité

Le modèle récent Segment Anything (SAM) marque une avancée significative dans la mise à l’échelle des modèles de segmentation, offrant des capacités puissantes en zéro-shot ainsi qu’une flexibilité accrue en matière d’invitation (prompting). Malgré une formation sur 1,1 milliard de masques, la qualité de prédiction des masques par SAM reste insuffisante dans de nombreux cas, en particulier pour des objets présentant des structures complexes. Nous proposons HQ-SAM, un modèle qui confère à SAM la capacité de segmenter avec précision n’importe quel objet, tout en préservant son architecture initiale, son efficacité, ainsi que sa capacité générale en zéro-shot. Notre conception soigneuse réutilise et préserve les poids préentraînés du modèle SAM, tout en introduisant uniquement un nombre minimal de paramètres supplémentaires et une charge de calcul réduite. Nous avons conçu un token de sortie haute qualité apprenable, intégré au décodeur de masques de SAM, chargé de prédire le masque de haute qualité. Contrairement à une approche limitée aux caractéristiques du décodeur de masques, nous fusionnons d’abord ces caractéristiques avec les features précoces et finales du modèle ViT afin d’améliorer la finesse des détails du masque. Pour entraîner les paramètres apprenables introduits, nous avons constitué un jeu de données comprenant 44 000 masques de haute granularité provenant de plusieurs sources. HQ-SAM est entraîné uniquement sur ce jeu de données de 44 000 masques, ce qui ne prend que 4 heures sur 8 GPU. Nous démontrons l’efficacité de HQ-SAM sur une série de 10 jeux de données de segmentation variés, couvrant diverses tâches en aval, dont 8 sont évaluées selon un protocole de transfert en zéro-shot. Le code source et les modèles préentraînés sont disponibles à l’adresse suivante : https://github.com/SysCV/SAM-HQ.