Bimodal SegNet: Instanzsegmentierung durch Fusions von Ereignissen und RGB-Bildern für die roboterbasierte Greifaktion

Die Objektsegmentierung für robotergestütztes Greifen unter dynamischen Bedingungen steht oft vor Herausforderungen wie Verdeckung, schlechten Lichtverhältnissen, Bewegungsunschärfe und variierender Objektgröße. Um diese Probleme zu bewältigen, schlagen wir ein tiefes Lernnetzwerk vor, das zwei Arten visueller Signale, ereignisbasierte Daten und RGB-Bildrahmen, fusioniert. Das vorgeschlagene Bimodal-SegNet-Netzwerk verfügt über zwei unterschiedliche Encoder, jeweils einen für ein Eingabesignal, sowie eine räumliche pyramidenförmige Pooling-Einheit mit dilatierten Konvolutionen. Die Encoder erfassen reichhaltige kontextuelle Information, indem sie die verketteten Merkmale auf unterschiedlichen Auflösungsebenen aggregieren, während der Decoder scharfe Objektränder erzeugt. Die Evaluation der vorgeschlagenen Methode erfolgt anhand fünf einzigartiger Bilddegradationsbedingungen – Verdeckung, Unschärfe, Helligkeitsveränderung, Trajektorienvariation und Skalenvariation – auf dem Eventbasierten Segmentierungsdataset (ESD). Die Ergebnisse zeigen eine Verbesserung der Segmentierungsgenauigkeit um 6–10 % im Vergleich zu aktuellen State-of-the-Art-Methoden hinsichtlich des mittleren Intersection-over-Union und der Pixelformgenauigkeit. Der Modellcode ist unter https://github.com/sanket0707/Bimodal-SegNet.git verfügbar.