Réseaux de segmentation d’image interactive régionale

Le modèle d’segmentation d’images interactives permet aux utilisateurs d’ajouter itérativement de nouvelles entrées afin d’affiner le résultat jusqu’à obtenir une solution satisfaisante. Par conséquent, un modèle idéal de segmentation interactive devrait être capable de capter l’intention de l’utilisateur avec un minimum d’interactions. Toutefois, les modèles existants ne parviennent pas à exploiter pleinement les informations précieuses contenues dans les entrées fournies par l’utilisateur durant le processus d’affinement, ce qui entraîne une expérience utilisateur insatisfaisante. Afin d’exploiter pleinement les informations fournies par l’utilisateur, nous proposons une nouvelle architecture profonde, appelée Réseau de segmentation interactive régionale (RIS-Net), qui étend le champ de vision des entrées données afin de capturer les informations locales des régions environnantes pour un affinement localisé. En outre, RIS-Net intègre des informations contextuelles globales à plusieurs échelles afin d’enrichir chaque région locale et améliorer la représentation des caractéristiques. Nous introduisons également des facteurs de dépréciation des clics pour concevoir une nouvelle stratégie d’optimisation permettant une formation end-to-end plus efficace. Des évaluations approfondies menées sur quatre jeux de données exigeants démontrent clairement l’avantage du RIS-Net proposé par rapport aux approches les plus avancées de l’état de l’art.