Segmentation sémantique à vocabulaire ouvert avec réseau à une seule passe découplée

Récemment, le problème de la segmentation sémantique à vocabulaire ouvert a attiré une attention croissante, et les méthodes les plus performantes reposent sur des réseaux à deux flux : un flux pour la génération de masques de propositions, et un autre pour la classification des segments à l’aide d’un modèle visuel-langagier préentraîné. Toutefois, les méthodes à deux flux existantes nécessitent de passer un grand nombre d’images (jusqu’à une centaine) dans le modèle visuel-langagier, ce qui s’avère très inefficace. Pour résoudre ce problème, nous proposons un réseau qui n’exige qu’un seul passage à travers le modèle visuel-langagier par image d’entrée. Plus précisément, nous introduisons tout d’abord une nouvelle approche d’adaptation de réseau, appelée patch severance, afin de limiter les interférences néfastes entre les embeddings de patch dans l’encodeur visuel préentraîné. Nous proposons ensuite une méthode d’apprentissage des ancres de classification, visant à inciter le réseau à se concentrer spatialement sur des caractéristiques plus discriminantes pour la classification. Des expériences étendues démontrent que la méthode proposée atteint des performances remarquables, surpassant les états de l’art tout en étant de 4 à 7 fois plus rapide à l’inference. Code : https://github.com/CongHan0808/DeOP.git