2ヶ月前

Pix2Next: ビジョン基盤モデルを活用したRGBからNIR画像変換

Jin, Youngwan ; Park, Incheol ; Song, Hanbin ; Ju, Hyeongjin ; Nalcakan, Yagiz ; Kim, Shiho
Pix2Next: ビジョン基盤モデルを活用したRGBからNIR画像変換
要約

本論文では、RGB入力から高品質の近赤外線(NIR)画像を生成する課題に対処するために設計された新しい画像対画像変換フレームワーク、Pix2Nextを提案します。当手法はエンコーダー-デコーダー構造内に最先端のビジョン基礎モデル(Vision Foundation Model: VFM)を活用し、クロスアテンション機構を取り入れることで特徴統合を強化しています。この設計により、詳細な全体表現を捉えつつ、重要なスペクトル特性を保つことができ、RGBからNIRへの変換を単なるドメイン転送問題以上のものとして扱います。多段階PatchGAN識別器がさまざまな詳細レベルでの現実的な画像生成を確保し、慎重に設計された損失関数が全体的なコンテキスト理解と局所的な特徴保存を結びつけます。RANUSデータセットを使用して実験を行い、Pix2Nextの定量評価指標と視覚的品質における優位性を示しました。既存手法と比較してFIDスコアが34.81%向上しました。さらに、生成されたNIRデータを使用して限られた実際のNIRデータセットを補完することで、下流の物体検出タスクでの性能向上も示しており、Pix2Nextの実用性を証明しています。提案手法は追加のデータ取得や注釈作業なしでNIRデータセットの拡大を可能にし、近赤外線に基づくコンピュータビジョン応用分野での進歩加速につながる可能性があります。