vor 2 Monaten

Pix2Next: Die Nutzung von Vision Foundation Modellen für die Übersetzung von RGB- in NIR-Bildern

Jin, Youngwan ; Park, Incheol ; Song, Hanbin ; Ju, Hyeongjin ; Nalcakan, Yagiz ; Kim, Shiho

Abstract

Dieses Papier präsentiert Pix2Next, einen neuen Ansatz für die Bild-zu-Bild-Übersetzung, der entwickelt wurde, um die Herausforderung der Generierung hochwertiger Nahinfrarot-(NIR)-Bilder aus RGB-Eingaben zu meistern. Unser Verfahren nutzt ein modernes Vision Foundation Model (VFM) in einer Encoder-Decoder-Architektur und integriert Kreuzaufmerksamkeitsmechanismen (cross-attention mechanisms), um die Merkmalsintegration zu verbessern. Diese Gestaltung erfasst detaillierte globale Repräsentationen und bewahrt wesentliche spektrale Charakteristika, wodurch die RGB-zu-NIR-Übersetzung als mehr als ein einfaches Domänenübertragungsproblem betrachtet wird. Ein mehrstufiger PatchGAN-Diskriminator gewährleistet realistische Bildgenerierung auf verschiedenen Detailstufen, während sorgfältig konzipierte Verlustfunktionen das globale Kontextverständnis mit der lokalen Merkmalsbewahrung verbinden. Wir haben Experimente am RANUS-Datensatz durchgeführt, um die Vorteile von Pix2Next in quantitativen Metriken und visueller Qualität zu demonstrieren; dabei konnte der FID-Score um 34,81 % verbessert werden im Vergleich zu bestehenden Methoden. Darüber hinaus zeigen wir die praktische Nutzbarkeit von Pix2Next durch eine bessere Leistung bei einer nachgelagerten Objekterkennungsaufgabe, bei der generierte NIR-Daten zur Erweiterung begrenzter echter NIR-Datensätze verwendet wurden. Der vorgeschlagene Ansatz ermöglicht es, NIR-Datensätze ohne zusätzliche Datenerfassungs- oder Annotierungsaufwand zu vergrößern, was möglicherweise Fortschritte in computer-visionären Anwendungen auf Basis von NIR beschleunigen könnte.