2달 전
Pix2Next: 시각 기반 모델을 활용한 RGB에서 NIR 이미지 변환
Jin, Youngwan ; Park, Incheol ; Song, Hanbin ; Ju, Hyeongjin ; Nalcakan, Yagiz ; Kim, Shiho

초록
본 논문은 고품질 근적외선(Near-Infrared, NIR) 이미지를 RGB 입력에서 생성하는 문제를 해결하기 위해 새로운 이미지-이미지 변환 프레임워크인 Pix2Next를 제안합니다. 본 접근 방식은 인코더-디코더 구조 내에서 최신의 비전 기초 모델(Vision Foundation Model, VFM)을 활용하고, 크로스 어텐션 메커니즘을 통합하여 특성 통합을 강화합니다. 이 설계는 상세한 전역 표현을 포착하면서 필수적인 스펙트럼 특성을 유지하며, RGB-to-NIR 변환을 단순한 도메인 전이 문제 이상으로 다룹니다. 다중 스케일 PatchGAN 판별자는 다양한 세부 수준에서 실제적인 이미지 생성을 보장하며, 신중하게 설계된 손실 함수는 전역 맥락 이해와 국소 특성 보존을 결합합니다. 우리는 RANUS 데이터셋에서 실험을 수행하여 Pix2Next의 양적 지표와 시각적 품질 측면에서 우위를 입증하였으며, 기존 방법에 비해 FID 점수가 34.81% 개선되었습니다. 또한, 생성된 NIR 데이터를 실제 NIR 데이터셋의 부족한 부분을 보완하여 사용함으로써 하류 객체 검출 작업에서 성능 향상을 보여주어 Pix2Next의 실용적 가치를 입증하였습니다. 제안된 접근 방식은 추가적인 데이터 수집이나 주석 작업 없이 NIR 데이터셋의 확장을 가능하게 하며, 근적외선 기반 컴퓨터 비전 응용 분야의 발전 가속화에 기여할 수 있습니다.