HyperAIHyperAI
vor 2 Monaten

Effiziente multimodale semantische Segmentierung durch Dual-Prompt-Lernen

Shaohua Dong; Yunhe Feng; Qing Yang; Yan Huang; Dongfang Liu; Heng Fan
Effiziente multimodale semantische Segmentierung durch Dual-Prompt-Lernen
Abstract

Die Multimodale Fusion (z. B. RGB-Tiefe/RGB-Wärmebild) hat großes Potenzial gezeigt, um die semantische Segmentierung in komplexen Szenen (z. B. Innenräume/Schummerlichtbedingungen) zu verbessern. Bestehende Ansätze passen oft einen Dual-Branch Encoder-Decoder-Framework vollständig fein an, indem sie eine komplizierte Merkmalsfusionstrategie anwenden, um multimodale semantische Segmentierung zu erreichen. Dies ist aufwendig in Bezug auf den Trainingsaufwand, da es massive Parameteraktualisierungen bei der Merkmalsextraktion und -fusion erfordert. Um dieses Problem anzugehen, schlagen wir ein überraschend einfaches, aber effektives Netzwerk für das lern-effiziente Training von multimodalen (z. B. RGB-D/T) semantischen Segmentierungen vor (bezeichnet als DPLNet – Dual-Prompt Learning Network).Das Kernstück des DPLNet besteht darin, ein gefrorenes vortrainiertes RGB-Modell direkt für multimodale semantische Segmentierung anzupassen, was die Anzahl der Parameteraktualisierungen reduziert. Zu diesem Zweck stellen wir zwei Prompt-Lernmodule vor: den Multimodalen Prompt Generator (MPG) und den Multimodalen Feature Adapter (MFA). Der MPG dient dazu, Merkmale aus verschiedenen Modalitäten auf kompakte Weise zu fusionieren und wird von den Schatten- bis zu den tiefen Stufen eingefügt, um mehrstufige multimodale Prompts zu generieren, die in den gefrorenen Backbone injiziert werden. Der MFA passt die durch Prompts beeinflussten multimodalen Merkmale im gefrorenen Backbone an, um eine bessere multimodale semantische Segmentierung zu ermöglichen.Da sowohl der MPG als auch der MFA leichtgewichtig sind, werden nur wenige trainierbare Parameter (3,88 Millionen, 4,4 % der vortrainierten Backbone-Parameter) für die Fusion und das Lernen von multimodalen Merkmalen hinzugefügt. Mit einem einfachen Decoder (3,27 Millionen Parameter) erreicht DPLNet neue Standartleistungen oder ist vergleichbar mit anderen komplexeren Ansätzen auf vier RGB-D/T-Segmentierungdatensätzen und erfüllt dabei gleichzeitig die Anforderungen an die Parametereffizienz. Darüber hinaus zeigen wir, dass DPLNet allgemein und auf andere multimodale Aufgaben wie die Detektion von auffälligen Objekten und Video-Semantiksegmentierung anwendbar ist. Ohne besondere Anpassung übertrifft DPLNet viele komplexe Modelle.Unser Code wird unter github.com/ShaohuaDong2021/DPLNet zur Verfügung gestellt.

Effiziente multimodale semantische Segmentierung durch Dual-Prompt-Lernen | Neueste Forschungsarbeiten | HyperAI