얼굴 스푸핑 방지를 위한 중심차분 컨볼루션 네트워크 탐색

얼굴 반사도 방지(Face anti-spoofing, FAS)는 얼굴 인식 시스템에서 핵심적인 역할을 한다. 기존의 최첨단 FAS 기법들은 일반적으로 1) 쌓인 합성곱(convolution)과 전문가가 설계한 네트워크에 의존하며, 이는 세부적인 미세한 정보를 효과적으로 표현하지 못하고 환경 변화(예: 다양한 조명 조건)에 취약하여 성능이 저하되기 쉽다는 단점이 있다. 또한 2) 동적 특징을 추출하기 위해 긴 시퀀스를 입력으로 사용하는 경향이 있어, 빠른 응답이 요구되는 시나리오에 적용하기 어렵다는 문제도 있다. 본 연구에서는 중심 차분 합성곱(Central Difference Convolution, CDC) 기반의 새로운 프레임 수준 FAS 방법을 제안한다. 이 방법은 밝기와 기울기 정보를 동시에 통합함으로써 내재된 세부 패턴을 효과적으로 포착할 수 있다. CDC를 기반으로 구축한 네트워크인 중심 차분 합성곱 네트워크(CDCN)는 일반적인 합성곱을 사용한 대응 네트워크보다 더 강력한 모델링 능력을 제공한다. 더불어, 특별히 설계된 CDC 탐색 공간 위에서 신경망 아키텍처 탐색(Neural Architecture Search, NAS)을 활용하여 더욱 강력한 네트워크 구조(CDCN++)를 탐색하였으며, 이를 다중 해상도 주의 집중 융합 모듈(Multiscale Attention Fusion Module, MAFM)과 조합함으로써 성능을 추가로 향상시켰다. 제안된 방법은 여섯 개의 기준 데이터셋에서 종합적인 실험을 수행하여, 1) 동일 데이터셋 내에서 뛰어난 성능을 보였으며, 특히 OULU-NPU 데이터셋의 Protocol-1에서 0.2%의 ACER를 기록함으로써 뛰어난 정확도를 입증하였고, 2) 교차 데이터셋 테스트에서도 우수한 일반화 능력을 보였다. 예를 들어, CASIA-MFSD 데이터셋에서 Replay-Attack 데이터셋으로 전이했을 때 HTER가 6.5% 감소하는 효과를 나타냈다. 코드는 \href{https://github.com/ZitongYu/CDCN}{https://github.com/ZitongYu/CDCN}에서 공개되어 있다.