HyperAIHyperAI
il y a 12 jours

Segmentation peu supervisée hybride Mamba

Qianxiong Xu, Xuanyi Liu, Lanyun Zhu, Guosheng Lin, Cheng Long, Ziyue Li, Rui Zhao
Segmentation peu supervisée hybride Mamba
Résumé

De nombreuses méthodes de segmentation à peu de exemples (FSS) utilisent l’attention croisée pour fusionner les caractéristiques de l’objet avant (FG) du support dans les caractéristiques de requête, indépendamment de la complexité quadratique associée. Une avancée récente, Mamba, est capable de capturer efficacement les dépendances intra-séquentielles avec une complexité linéaire. Nous visons donc à concevoir un Mamba croisé (à la manière de l’attention) afin de modéliser les dépendances inter-séquentielles pour la FSS. Une idée simple consiste à balayer les caractéristiques de support afin de les compresser sélectivement dans l’état caché, qui est ensuite utilisé comme état initial pour balayer séquentiellement les caractéristiques de requête. Toutefois, cette approche souffre de deux problèmes majeurs : (1) le problème d’oubli du support : lors du balayage des caractéristiques de requête, celles-ci sont également progressivement compressées, ce qui entraîne une diminution continue de l’information de support présente dans l’état caché, empêchant ainsi de nombreuses pixels de requête d’intégrer suffisamment d’informations provenant du support ; (2) le problème d’écart intra-classe : les caractéristiques FG de requête sont fondamentalement plus similaires à elles-mêmes qu’aux caractéristiques FG du support, c’est-à-dire que la requête peut privilégier l’utilisation de ses propres caractéristiques présentes dans l’état caché plutôt que d’incorporer activement celles du support — or, la réussite de la FSS repose précisément sur une utilisation efficace de l’information de support. Pour surmonter ces limitations, nous proposons un réseau hybride Mamba (HMNet), comprenant : (1) un Mamba de rappel du support, qui réintègre périodiquement les caractéristiques de support pendant le balayage des requêtes, garantissant ainsi que l’état caché conserve toujours une information riche sur le support ; (2) un Mamba d’interception de requête, qui interdit les interactions mutuelles entre les pixels de requête, tout en les incitant à intégrer davantage les caractéristiques du support provenant de l’état caché. En conséquence, l’information du support est exploitée de manière plus efficace, conduisant à de meilleures performances. Des expérimentations abondantes ont été menées sur deux benchmarks publics, démontrant clairement l’avantage de HMNet. Le code est disponible à l’adresse suivante : https://github.com/Sam1224/HMNet.