
要約
可視光(Visible: VIS)から近赤外線(Near Infrared: NIR)までの顔認識は、ドメイン間の大きな乖離とクロスモーダルマッチングアルゴリズムの学習に十分なデータが欠如しているため、難問となっています。既存の手法では、この問題を解決するために、NIR顔からVIS顔を合成する方法、これらのモーダルからドメイン不変特徴量を抽出する方法、または異種データを共通の潜在空間に射影してクロスモーダルマッチングを行う方法が採用されています。本論文では、異なるアプローチとして解離変分表現(Disentangled Variational Representation: DVR)を利用したクロスモーダルマッチングを行います。まず、顔表現を固有のアイデンティティ情報と個人内の変動でモデル化します。解離された潜在変数空間を探ることにより、変分下限を使用してNIRおよびVIS表現の近似事後分布を最適化します。次に、よりコンパクトで判別力のある解離された潜在空間を得るため、同一被験者のアイデンティティ情報を最小化し、NIRとVISモーダル変動間の緩和された相関アライメント制約を課します。解離変分表現部分と異種顔認識ネットワーク部分に対する代替最適化スキームが提案されています。これらの2つの部分における相互促進は効果的にNIRとVISドメイン間の乖離を軽減し、過学習を緩和します。3つの挑戦的なNIR-VIS異種顔認識データベースでの広範な実験により、提案手法が最先端の手法に対して大幅な改善を達成していることが示されました。