HyperAIHyperAI
vor 17 Tagen

Segmentierung transparenter Objekte in der Wildnis mit Transformer

Enze Xie, Wenjia Wang, Wenhai Wang, Peize Sun, Hang Xu, Ding Liang, Ping Luo
Segmentierung transparenter Objekte in der Wildnis mit Transformer
Abstract

Diese Arbeit stellt einen neuen, fein granularen Datensatz zur transparenten Objektssegmentierung vor, der als Trans10K-v2 bezeichnet wird und Trans10K-v1, dem ersten großskaligen Datensatz für die Segmentierung transparenter Objekte, erweitert. Im Gegensatz zu Trans10K-v1, der lediglich zwei begrenzte Kategorien umfasst, bietet unser neuer Datensatz mehrere überzeugende Vorteile. (1) Er umfasst 11 fein granulierte Kategorien transparenter Objekte, die im Alltagsumfeld von Menschen häufig vorkommen, wodurch er praktischer für Anwendungen in der realen Welt ist. (2) Trans10K-v2 stellt gegenüber der vorherigen Version höhere Anforderungen an aktuelle fortschrittliche Segmentierungsmethoden. Darüber hinaus wird ein neuartiger, auf Transformers basierender Segmentierungs-Pipeline namens Trans2Seg vorgestellt. Zunächst ermöglicht der Transformer-Encoder von Trans2Seg einen globalen Empfindlichkeitsbereich im Gegensatz zum lokalen Empfindlichkeitsbereich von CNNs, was gegenüber reinen CNN-Architekturen erhebliche Vorteile zeigt. Zweitens formulieren wir die semantische Segmentierung als ein Problem der Wörterbuchabfrage und entwerfen eine Reihe von lernbaren Prototypen als Query für den Transformer-Decoder von Trans2Seg, wobei jeder Prototyp die Statistiken einer einzelnen Kategorie im gesamten Datensatz lernt. Wir bewerten mehr als 20 aktuelle Methoden der semantischen Segmentierung und zeigen, dass Trans2Seg alle CNN-basierten Ansätze erheblich übertrifft, was das hohe Potenzial des vorgeschlagenen Algorithmus zur Lösung der Segmentierung transparenter Objekte unterstreicht.