Impliziter Multi-Spektraler Transformer: Ein leichtgewichtiger und effektiver Modellansatz für die Übersetzung von sichtbaren zu Infrarotbildern

Im Bereich der Computer Vision weisen sichtbare Lichtbilder unter schlechten Beleuchtungsbedingungen oft eine geringe Kontrastierung auf, was eine erhebliche Herausforderung darstellt. Während Infrarotbilder eine potenzielle Lösung bieten, sind deren Einsatz mit hohen Kosten und praktischen Einschränkungen verbunden. Neuere Fortschritte im Bereich des Deep Learning, insbesondere die Anwendung von Generativen adversarialen Netzwerken (GANs), haben die Umwandlung sichtbarer Bilder in Infrarotbilder ermöglicht. Allerdings weisen diese Methoden häufig instabile Trainingsphasen auf und können suboptimale Ergebnisse liefern. Um diese Probleme zu bewältigen, schlagen wir ein neuartiges end-to-end-Modell basierend auf Transformer vor, das sichtbare Bilder effizient in hochqualitative Infrarotbilder umwandelt. Zunächst extrahieren das Texture Mapping Modul und der Color Perception Adapter gemeinsam Textur- und Farbmerkmale aus dem sichtbaren Bild. Anschließend integriert das Dynamic Fusion Aggregation Modul diese Merkmale. Schließlich wird die Transformation in ein Infrarotbild durch die synergistische Wirkung des Color Perception Adapters und der verbesserten Perception Attention-Mechanismus verfeinert. Umfassende Benchmark-Tests bestätigen, dass unser Modell bestehende Ansätze übertrifft und Infrarotbilder von deutlich höherer Qualität – sowohl qualitativ als auch quantitativ – erzeugt. Darüber hinaus ermöglicht das vorgeschlagene Modell effektivere Anwendungen für Infrarotbilder in nachgeschalteten Aufgaben im Vergleich zu anderen Methoden.