AI-SAM : Modèle Automatique et Interactif de Segment Anything

La segmentation sémantique est une tâche fondamentale en vision par ordinateur. Les méthodes existantes se divisent généralement en deux catégories : automatiques et interactives. Les approches interactives, exemplifiées par le modèle Segment Anything (SAM), ont montré un grand potentiel en tant que modèles pré-entraînés. Toutefois, les stratégies actuelles d’adaptation de ces modèles tendent à privilégier soit une approche entièrement automatique, soit une approche entièrement interactive. Les méthodes interactives dépendent de l’entrée utilisateur sous forme de prompts, tandis que les approches automatiques éliminent complètement la nécessité de tels prompts interactifs. Pour surmonter ces limitations, nous introduisons un nouveau paradigme ainsi que son premier modèle : le modèle Segment Anything Automatique et Interactif (AI-SAM). Dans ce paradigme, nous menons une analyse approfondie de la qualité des prompts et proposons le premier prompteur automatique et interactif (AI-Prompter), capable de générer automatiquement des points de départ comme prompts tout en acceptant des entrées supplémentaires de l’utilisateur. Nos résultats expérimentaux démontrent l’efficacité d’AI-SAM dans un cadre entièrement automatique, atteignant des performances de pointe. De manière significative, ce modèle offre la flexibilité d’intégrer des prompts supplémentaires de l’utilisateur, permettant ainsi une amélioration supplémentaire de ses performances. La page du projet est disponible à l’adresse suivante : https://github.com/ymp5078/AI-SAM.