HyperAIHyperAI
vor 17 Tagen

Trans4Trans: Effizienter Transformer für die Erkennung durchsichtiger Objekte und semantische Szenensegmentierung in der realen Weltunterstützung

Jiaming Zhang, Kailun Yang, Angela Constantinescu, Kunyu Peng, Karin Müller, Rainer Stiefelhagen
Trans4Trans: Effizienter Transformer für die Erkennung durchsichtiger Objekte und semantische Szenensegmentierung in der realen Weltunterstützung
Abstract

Durchsichtige Objekte wie Glasscheiben und -türen stellen architektonische Hindernisse dar, die die Mobilität von Menschen mit eingeschränktem Sehvermögen oder Blindheit beeinträchtigen. So ist beispielsweise der Raum hinter einer Glasschiebetür für Nutzer nicht zugänglich, es sei denn, er wird korrekt wahrgenommen und interaktiv gemeistert. Traditionelle assistive Technologien decken jedoch selten die Segmentierung dieser sicherheitskritischen durchsichtigen Objekte ab. In diesem Paper stellen wir ein tragbares System mit einem neuartigen Dual-Head-Transformer-Modell für Durchsichtigkeit (Trans4Trans) vor, das sowohl allgemeine als auch durchsichtige Objekte segmentieren kann. Die beiden dichten Segmentierungsergebnisse werden im System zusätzlich mit Tiefeninformationen kombiniert, um den Nutzern eine sichere Navigation zu ermöglichen und ihnen bei der Überwindung durchsichtiger Hindernisse zu helfen. Wir schlagen einen leichten Transformer-Parsing-Modul (TPM) vor, der eine mehrskalige Merkmalsinterpretation im Transformer-basierten Decoder durchführt. Durch den Einsatz des TPM können die beiden Decoder gemeinsam aus entsprechenden Datensätzen lernen, um Robustheit zu erreichen, während gleichzeitig Effizienz auf einer tragbaren GPU gewahrt bleibt, wobei die Berechnungskosten nahezu unverändert bleiben. Das gesamte Trans4Trans-Modell ist in einer symmetrischen Encoder-Decoder-Architektur implementiert und erzielt auf den Testsets der Datensätze Stanford2D3D und Trans10K-v2 Ergebnisse, die die aktuellen State-of-the-Art-Methoden übertrafen, mit mIoU-Werten von 45,13 % und 75,14 %, jeweils. Durch eine Benutzerstudie und verschiedene Vorversuche in Innen- und Außenbereichen wurde die Benutzerfreundlichkeit und Zuverlässigkeit unseres assistiven Systems umfassend überprüft. Gleichzeitig zeigt das Trans4Trans-Modell herausragende Leistungen auf Datensätzen für Fahrzeugumgebungen. Auf den Datensätzen Cityscapes, ACDC und DADA-seg, die alltägliche Umgebungen, ungünstige Wetterbedingungen und Verkehrsunfallszenarien repräsentieren, wurden mIoU-Werte von 81,5 %, 76,3 % und 39,2 % erreicht, was seine hohe Effizienz und Robustheit für reale Anwendungen im Verkehrssektor belegt.

Trans4Trans: Effizienter Transformer für die Erkennung durchsichtiger Objekte und semantische Szenensegmentierung in der realen Weltunterstützung | Neueste Forschungsarbeiten | HyperAI