
加齢は顔認識において大きな課題をもたらす。皮膚の質感やトーンの変化は時間の経過とともに顔貌を変容させ、同じ人物の数年間隔で撮影された画像同士を比較する際に特に困難を伴う。特に長期的な識別シーンでは顕著な問題となる。トランスフォーマー(Transformer)ネットワークは、加齢に起因する変化によって生じる空間的順序関係を保持する強みを持つ。本研究では、顔認識分野においてトランスフォーマーを追加損失(additive loss)として用いる損失評価技術を提案する。従来のメトリック損失関数は通常、主なCNNバックボーンの最終埋め込み(embedding)を入力としているが、本研究ではトランスフォーマー損失とメトリック損失を統合した「トランスフォーマー・メトリック損失(transformer-metric loss)」という組み合わせ手法を採用している。本研究の目的は、CNNの出力を順序ベクトルとして並べ替えた際のトランスフォーマーの挙動を分析することである。このような順序ベクトルは、加齢によって生じるしわや皮膚の弛緩といったテクスチャや局所構造の変化を克服する可能性を有している。トランスフォーマーエンコーダは、ネットワークの最終畳み込み層から得られる文脈ベクトルを入力として扱う。これにより学習された特徴量は、より加齢に頑健(age-invariant)なものとなり、従来のメトリック損失による埋め込みの識別力と相補的に機能する。本手法を用いて、さまざまなベースとなるメトリック損失関数と組み合わせたトランスフォーマー損失の効果を評価した結果、LFWおよび加齢変動を考慮したデータセット(CA-LFW、AgeDB)において、最先端(SoTA)の性能を達成することが確認された。本研究は、トランスフォーマーが機械視覚分野における役割を拡張するものであり、損失関数としてのトランスフォーマーの可能性を新たに開拓する意義を持つ。