UniRGB-IR: Ein einheitlicher Rahmen für sichtbare-Infrarot-Semantikaufgaben mittels Adapter-Tuning

Die semantische Analyse von sichtbaren (RGB) und infraroten (IR) Bildern hat aufgrund ihrer verbesserten Genauigkeit und Robustheit unter anspruchsvollen Bedingungen wie niedriger Beleuchtung und ungünstigem Wetter erhebliche Aufmerksamkeit erfahren. Allerdings fehlen aufgrund des Fehlens vortrainierter Grundmodelle für großskalige IR-Bilddatensätze bisher effektive Lösungen, weshalb bestehende Ansätze häufig spezifische Aufgabenframeworks entwerfen und diese direkt mit vortrainierten Grundmodellen auf ihren RGB-IR-Semantik-Relevanz-Datensätzen feinjustieren. Dies führt zu einer schlechten Skalierbarkeit und eingeschränkter Generalisierbarkeit. Um diese Einschränkungen zu überwinden, stellen wir UniRGB-IR vor – ein skalierbares und effizientes Framework für RGB-IR-Semantikaufgaben, das eine neuartige Adapter-Mechanismus einführt, um reichhaltige multimodale Merkmale effektiv in vortrainierte RGB-basierte Grundmodelle einzubinden. Unser Framework besteht aus drei zentralen Komponenten: einem Vision Transformer (ViT)-Grundmodell, einem Multi-modal Feature Pool (MFP)-Modul und einem Supplementary Feature Injector (SFI)-Modul. Die MFP- und SFI-Module arbeiten gemeinsam als Adapter, um die ViT-Merkmale durch kontextuelle, mehrskalige Merkmale effektiv zu ergänzen. Während des Trainings frozen wir das gesamte Grundmodell, um vorherige Wissensbestände zu bewahren, und optimieren lediglich die MFP- und SFI-Module. Zudem nutzen wir zur Validierung der Wirksamkeit unseres Ansatzes das ViT-Base-Modell als vortrainiertes Grundmodell und führen umfangreiche Experimente durch. Die experimentellen Ergebnisse auf verschiedenen RGB-IR-Semantikaufgaben zeigen, dass unsere Methode eine state-of-the-art-Leistung erzielt. Der Quellcode und die Ergebnisse sind unter https://github.com/PoTsui99/UniRGB-IR.git verfügbar.