Mean Shift Mask Transformer pour la segmentation d'instances d'objets inconnus

La segmentation d'objets inconnus à partir d'images est une compétence perceptive cruciale que les robots doivent acquérir. Dans le domaine de la manipulation robotique, elle peut faciliter la prise et la manipulation d'objets inconnus par un robot. La méthode de clustering par décalage de moyenne (mean shift clustering) est largement utilisée pour les tâches de segmentation d'images. Cependant, l'algorithme traditionnel de clustering par décalage de moyenne n'est pas différentiable, ce qui rend difficile son intégration dans un cadre de formation de réseau neuronal bout-à-bout. Dans cette étude, nous proposons le Mean Shift Mask Transformer (MSMFormer), une nouvelle architecture de transformer qui simule l'algorithme de clustering par décalage de moyenne von Mises-Fisher (vMF), permettant ainsi la formation conjointe et l'inférence du extracteur de caractéristiques et du clusteriseur. Son composant central est un mécanisme d'attention hypersphérique, qui met à jour les requêtes d'objets sur une hypersphère. Pour illustrer l'efficacité de notre méthode, nous appliquons le MSMFormer à la segmentation d'instances d'objets inconnus. Nos expériences montrent que le MSMFormer atteint des performances compétitives comparées aux méthodes les plus avancées pour la segmentation d'instances d'objets inconnus. La page du projet, l'annexe, la vidéo et le code sont disponibles à l'adresse suivante : https://irvlutd.github.io/MSMFormer