Plongement de Pixels Récurrent pour le Groupement d'Instances

Nous présentons un cadre différentiable et entraînable de bout en bout pour résoudre des problèmes de regroupement au niveau des pixels, tels que la segmentation d'instances, composé de deux éléments novateurs. Premièrement, nous régressons les pixels dans un espace d'embedding hyper-sphérique afin que les pixels appartenant au même groupe aient une similarité cosinus élevée, tandis que ceux appartenant à des groupes différents ont une similarité inférieure à une marge spécifiée. Nous analysons le choix de la dimension de l'embedding et de la marge, en les reliant aux résultats théoriques sur le problème de distribution uniforme des points sur la sphère. Deuxièmement, pour regrouper les instances, nous utilisons une variante du clustering mean-shift, implémentée sous forme de réseau neuronal récurrent paramétré par la largeur de bande du noyau. Ce module de regroupement récurrent est différentiable, bénéficie de dynamiques convergentes et d'une interprétabilité probabiliste. La rétropropagation de la perte pondérée par les groupes à travers ce module permet d'apprendre à se concentrer uniquement sur la correction des erreurs d'embedding qui ne seront pas résolues lors du clustering ultérieur. Notre cadre, bien qu'il soit conceptuellement simple et théoriquement riche, est également efficace sur le plan pratique et computationnellement performant. Nous démontrons des améliorations substantielles par rapport aux méthodes actuelles pour la génération de propositions d'objets et la segmentation d'instances, ainsi que les avantages de la perte de regroupement pour des tâches de classification telles que la détection des contours et la segmentation sémantique.