
要約
赤外線と可視光線間のクロスモーダル顔認識は、夜間監視やセキュリティアプリケーションにおいて非常に望まれる機能である。大きなモーダルギャップにより、赤外線から可視光線への顔認識は最も困難な顔マッチング問題の一つとなっている。本論文では、このモーダルギャップを大幅に縮める手法を提案する。当手法は、深層ニューラルネットワークを使用して両モーダル間の非常に非線形的な関係を捉えるものである。我々のモデルは、同一性情報を保ちつつ、可視光線から赤外線スペクトラムへの非線形マッピングを学習することを目指している。3つの難易度の高い赤外線-可視光線顔データセットにおいて、実質的な性能向上が示された。特にUND-X1データセットでは既存の最先端技術に対して10%以上、NVESDデータセットでは15-30%以上のRank-1識別率で性能向上が確認された。当手法は、モーダルギャップによる性能低下を40%以上改善している。注:「Rank-1識別」は、「ランク1識別」とも訳されることがありますが、本訳では「Rank-1識別」を使用しました。「modality gap」(モーダルギャップ)は、異なるセンサーや画像取得方法によって生じるデータ間の差異を指します。