AutoSAM : Adaptation de SAM aux images médicales par surcharge du prompt encoder

Le modèle Segment Anything (SAM), récemment introduit, combine une architecture ingénieuse et de grandes quantités de données d'entraînement pour obtenir des capacités de segmentation d'images remarquables. Cependant, il échoue à reproduire ces résultats pour des domaines hors distribution (Out-Of-Distribution, OOD) tels que les images médicales. De plus, bien que SAM soit conditionné par un masque ou un ensemble de points, il peut être souhaitable d'avoir une solution entièrement automatique. Dans cette étude, nous remplaçons la conditionnalité de SAM par un encodeur qui opère sur la même image d'entrée. En ajoutant cet encodeur et sans effectuer d'affinage supplémentaire de SAM, nous obtenons des résultats de pointe sur plusieurs benchmarks d'images et de vidéos médicales. Ce nouvel encodeur est entraîné grâce aux gradients fournis par un SAM figé. Pour examiner les connaissances qu'il contient et fournir une solution de segmentation légère, nous apprenons également à le décoder en un masque à l'aide d'un réseau déconvolutif peu profond.