HyperAIHyperAI

Command Palette

Search for a command to run...

Mean-Shift-Mask-Transformer für die Segmentierung von unbekannten Objektinstanzen

Yangxiao Lu Yuqiao Chen Nicholas Ruozzi Yu Xiang

Zusammenfassung

Die Segmentierung unbekannter Objekte aus Bildern ist eine entscheidende Wahrnehmungsfähigkeit, die Roboter erwerben müssen. Im Bereich der Robotermanipulation kann dies einem Roboter helfen, unbekannte Objekte zu greifen und zu manipulieren. Der Mean-Shift-Clustering ist eine weit verbreitete Methode für Bildsegmentierungsaufgaben. Allerdings ist der traditionelle Mean-Shift-Clustering-Algorithmus nicht differenzierbar, was seine Integration in ein end-to-end neuronales Netzwerk-Trainingsframework erschwert. In dieser Arbeit schlagen wir den Mean Shift Mask Transformer (MSMFormer) vor, eine neue Transformer-Architektur, die den von-Mises-Fisher-(vMF)-Mean-Shift-Clustering-Algorithmus simuliert und somit das gemeinsame Training und die Inferenz sowohl des Feature Extractors als auch des Clusters ermöglicht. Das zentrale Element ist ein Hypersphären-Aufmerksamkeitsmechanismus, der Objektanfragen auf einer Hypersphäre aktualisiert. Um die Effektivität unserer Methode zu demonstrieren, wenden wir den MSMFormer auf die Segmentierung von Instanzen unbekannter Objekte an. Unsere Experimente zeigen, dass der MSMFormer vergleichbare Leistungen wie state-of-the-art Methoden bei der Segmentierung von Instanzen unbekannter Objekte erzielt. Die Projektseite, Anhang, Video und Code sind unter https://irvlutd.github.io/MSMFormer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp