Polarisationsgetriebene semantische Segmentierung mittels effizienter Aufmerksamkeits-gebrückter Fusion

Die semantische Segmentierung (SS) ist vielversprechend für die Wahrnehmung von Außenbereichen in sicherheitskritischen Anwendungen wie autonomen Fahrzeugen und assistierender Navigation. Traditionelle SS basiert jedoch hauptsächlich auf RGB-Bildern, was die Zuverlässigkeit der Segmentierung in komplexen Außenbereichen einschränkt, da RGB-Bilder nicht über die erforderlichen Informationsdimensionen verfügen, um unbeschränkte Umgebungen vollständig zu erfassen. Als erste Untersuchung analysieren wir die SS in einer unerwarteten Hinderniserkennungsszene, was die Notwendigkeit einer multimodalen Fusion verdeutlicht. Daher stellen wir in dieser Arbeit EAFNet, ein effizientes Aufmerksamkeits-gebrücktes Fusionssystem, vor, um ergänzende Informationen aus verschiedenen optischen Sensoren auszunutzen. Insbesondere integrieren wir die Polarisationsmessung, um zusätzliche Informationen zu gewinnen, berücksichtigt man deren optische Eigenschaften zur robusten Repräsentation verschiedener Materialien. Durch den Einsatz eines Einzelschuss-Polarisationssensors erstellen wir erstmals den RGB-P-Datensatz, der aus 394 annotierten, pixelgenau ausgerichteten RGB-Polarisation-Bildern besteht. Umfassende Experimente belegen die Wirksamkeit von EAFNet bei der Fusion von Polarisation- und RGB-Information sowie die Flexibilität, sich an andere Sensor-Kombinationsszenarien anzupassen.