WeakSAM : Segmentation de tout rencontre la reconnaissance au niveau des instances faiblement supervisée

La reconnaissance visuelle faiblement supervisée à l'aide d'une supervision imprécise est un problème d'apprentissage crucial mais complexe. Elle réduit considérablement les coûts de l'étiquetage humain et repose traditionnellement sur l'apprentissage multi-instance et le pseudo-étiquetage. Cet article introduit WeakSAM et résout les problèmes de détection d'objets faiblement supervisée (WSOD) et de segmentation par l'utilisation des connaissances pré-apprises du monde contenues dans un modèle fondamental de vision, c'est-à-dire le Segment Anything Model (SAM). WeakSAM surmonte deux limitations critiques dans la réentraîne traditionnelle de la WSOD, à savoir l'incomplétude des pseudo-vérités terrain (PGT) et les instances bruyantes de PGT, grâce à une génération adaptative de PGT et à une régularisation par suppression des Régions d'Intérêt (RoI). Il aborde également les problèmes du SAM liés à la nécessité de prompts et au manque de conscience catégorielle pour la détection et la segmentation automatiques d'objets. Nos résultats montrent que WeakSAM dépasse largement les méthodes précédentes de pointe dans les benchmarks WSOD et WSIS, avec des améliorations moyennes respectives de 7,4 % et 8,5 %. Le code est disponible à l'adresse \url{https://github.com/hustvl/WeakSAM}.