Lernen generalisierter Segmentierung für neblige Szenen durch bidirektionale Wellenleitungsleitung

Die Entwicklung von Szenen-Semantikmodellen, die sich gut auf neblige Bedingungen verallgemeinern lassen, ist für sicherheitskritische Anwendungen wie autonome Fahrzeuge von entscheidender Bedeutung. Bestehende Methoden erfordern sowohl annotierte klare Bilder als auch neblige Bilder, um ein Curriculum-Domain-Adaptations-Modell zu trainieren. Leider können diese Ansätze nur auf solche nebligen Domänen generalisieren, die bereits während des Trainings gesehen wurden, während die nebligen Domänen hinsichtlich sowohl der urbanen Szenenstile als auch der Neblenarten stark variieren. In diesem Artikel schlagen wir vor, eine Szenen-Segmentierung zu lernen, die sich unter dem Rahmenbedingungen der Domänen-Verallgemeinerung gut auf neblige Szenen verallgemeinern lässt, wobei im Trainingsstadium keinerlei neblige Bilder verwendet werden und die Methode dennoch auf beliebige, bisher nicht gesehene neblige Szenen generalisieren kann. Wir argumentieren, dass ein ideales Segmentierungsmodell, das sich gut auf neblige Szenen verallgemeinern lässt, gleichzeitig die Inhaltserhaltung fördern, den urbanen Szenenstil entkoppeln und den Neblenstil entkoppeln muss. Da der Inhalt (z. B. Szenen-Semantik) vor allem in niedrigen Frequenzmerkmalen liegt, während der Stil urbaner Szenen und der Neblenstil vor allem in hohen Frequenzmerkmalen repräsentiert sind, schlagen wir eine neuartige bidirektionale Wellenleitungsmechanismus (Bi-directional Wavelet Guidance, BWG) vor, um diese drei Ziele auf eine getrennt-und-beherrsche-Weise zu erreichen. Mit Hilfe der Haar-Wavelet-Transformation wird der Niederfrequenzanteil auf die Inhaltserhaltung durch selbst-Attention fokussiert, während der Hochfrequenzanteil zur Entkoppelung des Stils und des Neblens auf die Stil- und Neblen-Attention übertragen wird. Der Mechanismus wird lernbar in bestehende Mask-Level-Transformer-Segmentierungs-Pipelines integriert. Umfassende Experimente werden auf vier großen Datensätzen für die Segmentierung nebliger Szenen unter einer Vielzahl interessanter Einstellungen durchgeführt. Die vorgeschlagene Methode übertrifft bestehende direkt überwachte, Curriculum-Domain-Adaptation- und Domain-Generalization-Segmentierungsansätze deutlich. Der Quellcode ist unter https://github.com/BiQiWHU/BWG verfügbar.