HyperAIHyperAI
vor 2 Monaten

Mobile-Seed: Gemeinsame semantische Segmentierung und Randerkennung für mobile Roboter

Liao, Youqi ; Kang, Shuhao ; Li, Jianping ; Liu, Yang ; Liu, Yun ; Dong, Zhen ; Yang, Bisheng ; Chen, Xieyuanli
Mobile-Seed: Gemeinsame semantische Segmentierung und Randerkennung für mobile Roboter
Abstract

Die präzise und schnelle Abgrenzung scharfer Ränder und die robuste Semantik sind für zahlreiche nachgelagerte Robotaufgaben wie Greifen und Manipulieren von Robotern, Echtzeit-Semantische Kartenbildung und Online-Sensorkalibrierung auf Edge-Computing-Einheiten essentiell. Obwohl Randerkennung und semantisches Segmentieren sichergänzende Aufgaben sind, konzentrieren sich die meisten Studien auf leichte Modelle für das semantische Segmentieren, aber sie vernachlässigen die entscheidende Rolle der Randerkennung. In dieser Arbeit stellen wir Mobile-Seed vor, ein leichtes, dualaufgabenorientiertes Framework, das speziell für die gleichzeitige semantische Segmentierung und Randerkennung entwickelt wurde. Unser Framework umfasst einen zweistromigen Encoder, einen aktiven Fusion Decoder (AFD) und einen Ansatz zur Regularisierung bei dualen Aufgaben. Der Encoder ist in zwei Wege unterteilt: einer erfasst kategoriebezogene semantische Informationen, während der andere Ränder aus mehrskaligen Merkmalen erkennt. Das AFD-Modul passt die Fusion von semantischen und randbasierten Informationen dynamisch an, indem es kanalweise Beziehungen lernt, was eine präzise Gewichtszuordnung für jeden Kanal ermöglicht. Darüber hinaus führen wir einen Regularisierungsverlust ein, um Konflikte bei der Lernung dualer Aufgaben und tiefgreifender Diversitätsüberwachung zu mildern. Im Vergleich zu bestehenden Methoden bietet das vorgeschlagene Mobile-Seed ein leichtes Framework, das gleichzeitig die Leistung des semantischen Segmentierens verbessert und Objektränder genau lokalisieren kann. Experimente mit dem Cityscapes-Datensatz haben gezeigt, dass Mobile-Seed gegenüber dem Stand der Technik (SOTA) Baseline eine bemerkenswerte Verbesserung um 2,2 Prozentpunkte (pp) im mIoU und 4,2 pp im mF-Wert erreicht, wobei es eine Online-Inferenzgeschwindigkeit von 23,9 Bildern pro Sekunde (FPS) bei einer Auflösung von 1024x2048 auf einem RTX 2080 Ti GPU beibehält. Zusätzliche Experimente mit den Datensätzen CamVid und PASCAL Context bestätigen die Übertragbarkeit unserer Methode. Der Quellcode und zusätzliche Ergebnisse sind öffentlich verfügbar unter https://whu-usi3dv.github.io/Mobile-Seed/.