HyperAIHyperAI
vor 2 Monaten

Mean-Shift-Mask-Transformer für die Segmentierung von unbekannten Objektinstanzen

Yangxiao Lu; Yuqiao Chen; Nicholas Ruozzi; Yu Xiang
Mean-Shift-Mask-Transformer für die Segmentierung von unbekannten Objektinstanzen
Abstract

Die Segmentierung unbekannter Objekte aus Bildern ist eine entscheidende Wahrnehmungsfähigkeit, die Roboter erwerben müssen. Im Bereich der Robotermanipulation kann dies einem Roboter helfen, unbekannte Objekte zu greifen und zu manipulieren. Der Mean-Shift-Clustering ist eine weit verbreitete Methode für Bildsegmentierungsaufgaben. Allerdings ist der traditionelle Mean-Shift-Clustering-Algorithmus nicht differenzierbar, was seine Integration in ein end-to-end neuronales Netzwerk-Trainingsframework erschwert. In dieser Arbeit schlagen wir den Mean Shift Mask Transformer (MSMFormer) vor, eine neue Transformer-Architektur, die den von-Mises-Fisher-(vMF)-Mean-Shift-Clustering-Algorithmus simuliert und somit das gemeinsame Training und die Inferenz sowohl des Feature Extractors als auch des Clusters ermöglicht. Das zentrale Element ist ein Hypersphären-Aufmerksamkeitsmechanismus, der Objektanfragen auf einer Hypersphäre aktualisiert. Um die Effektivität unserer Methode zu demonstrieren, wenden wir den MSMFormer auf die Segmentierung von Instanzen unbekannter Objekte an. Unsere Experimente zeigen, dass der MSMFormer vergleichbare Leistungen wie state-of-the-art Methoden bei der Segmentierung von Instanzen unbekannter Objekte erzielt. Die Projektseite, Anhang, Video und Code sind unter https://irvlutd.github.io/MSMFormer verfügbar.

Mean-Shift-Mask-Transformer für die Segmentierung von unbekannten Objektinstanzen | Neueste Forschungsarbeiten | HyperAI