나이 변화에 따른 얼굴 인식을 위한 Transformer 기반 보조 손실

노화는 피부 질감과 색조의 변화가 시간이 지남에 따라 얼굴 특징을 변화시킴으로써 얼굴 인식에서 중요한 도전 과제를 제기한다. 이로 인해 수년 간격으로 촬영된 동일 인물의 이미지를 비교하는 경우, 특히 장기적 식별 상황에서 인식 성능이 크게 저하된다. 트랜스포머 네트워크는 노화에 의해 유도되는 시계열적 공간적 관계를 유지하는 데 강점을 지닌다. 본 논문에서는 얼굴 인식 분야에서 트랜스포머 네트워크를 보조 손실(Additive Loss)로 활용하는 손실 평가 기법을 제안한다. 기존의 표준 메트릭 손실 함수는 일반적으로 주 CNN 백본의 최종 임베딩을 입력으로 사용하지만, 본 연구에서는 트랜스포머-메트릭 손실(Transformer-Metric Loss)이라는 통합적 접근법을 도입한다. 이는 트랜스포머 손실과 메트릭 손실을 결합한 방식이다. 본 연구는 CNN의 출력 결과를 시계열 벡터로 정렬한 후, 트랜스포머 인코더가 이러한 시계열 벡터를 입력으로 받아 노화로 인해 발생하는 주름이나 피부 이완과 같은 질감 또는 지역적 구조적 변화를 극복할 수 있는 잠재력을 탐색한다. 트랜스포머 인코더는 네트워크의 최종 합성곱 층에서 얻어진 문맥 벡터를 입력으로 받으며, 학습된 특징은 더 높은 노화에 대한 불변성(age-invariance)을 가지게 되어 기존 메트릭 손실 임베딩의 구분 능력을 보완한다. 본 기법을 통해 다양한 기반 메트릭 손실 함수와 결합된 트랜스포머 손실을 활용하여 복합 손실 함수의 효과를 평가하였다. 그 결과, LFW 및 노화 변화가 있는 데이터셋(CA-LFW, AgeDB)에서 기존 최고 성능(SoTA)을 달성함을 관측할 수 있었다. 본 연구는 트랜스포머 기술이 머신 비전 분야에서 수행하는 역할을 확장하며, 트랜스포머를 손실 함수로서 탐색하는 새로운 가능성을 제시한다.