HyperAIHyperAI

Command Palette

Search for a command to run...

Pix2Next: Die Nutzung von Vision Foundation Modellen für die Übersetzung von RGB- in NIR-Bildern

Youngwan Jin Incheol Park Hanbin Song Hyeongjin Ju Yagiz Nalcakan Shiho Kim

Zusammenfassung

Dieses Papier präsentiert Pix2Next, einen neuen Ansatz für die Bild-zu-Bild-Übersetzung, der entwickelt wurde, um die Herausforderung der Generierung hochwertiger Nahinfrarot-(NIR)-Bilder aus RGB-Eingaben zu meistern. Unser Verfahren nutzt ein modernes Vision Foundation Model (VFM) in einer Encoder-Decoder-Architektur und integriert Kreuzaufmerksamkeitsmechanismen (cross-attention mechanisms), um die Merkmalsintegration zu verbessern. Diese Gestaltung erfasst detaillierte globale Repräsentationen und bewahrt wesentliche spektrale Charakteristika, wodurch die RGB-zu-NIR-Übersetzung als mehr als ein einfaches Domänenübertragungsproblem betrachtet wird. Ein mehrstufiger PatchGAN-Diskriminator gewährleistet realistische Bildgenerierung auf verschiedenen Detailstufen, während sorgfältig konzipierte Verlustfunktionen das globale Kontextverständnis mit der lokalen Merkmalsbewahrung verbinden. Wir haben Experimente am RANUS-Datensatz durchgeführt, um die Vorteile von Pix2Next in quantitativen Metriken und visueller Qualität zu demonstrieren; dabei konnte der FID-Score um 34,81 % verbessert werden im Vergleich zu bestehenden Methoden. Darüber hinaus zeigen wir die praktische Nutzbarkeit von Pix2Next durch eine bessere Leistung bei einer nachgelagerten Objekterkennungsaufgabe, bei der generierte NIR-Daten zur Erweiterung begrenzter echter NIR-Datensätze verwendet wurden. Der vorgeschlagene Ansatz ermöglicht es, NIR-Datensätze ohne zusätzliche Datenerfassungs- oder Annotierungsaufwand zu vergrößern, was möglicherweise Fortschritte in computer-visionären Anwendungen auf Basis von NIR beschleunigen könnte.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Pix2Next: Die Nutzung von Vision Foundation Modellen für die Übersetzung von RGB- in NIR-Bildern | Paper | HyperAI