QCS: 쿼드루플릿 크로스 유사성 기반 얼굴 표정 인식을 위한 특징 정제

얼굴 표현 인식은 데이터셋에서 라벨이 부착된 중요한 특징들이 라벨이 없는 불필요한 특징들과 혼합되는 문제에 직면해 있습니다. 본 논문에서는 이미지 쌍으로부터 더 풍부한 내재적 정보를 추출하기 위해 크로스 유사성 주의(Cross Similarity Attention, CSA)를 소개합니다. 이는 ViT의 스케일링된 닷 프로덕트 주의(Scaled Dot-Product Attention)가 두 개의 다른 이미지 간 유사성을 계산하는 데 직접 적용될 때 발생하는 제약을 극복하기 위한 것입니다. CSA를 기반으로 하여, 우리는 여러 가지 분기들 사이의 상호작용을 통해 미세한 특징 수준에서 클래스 내 차이를 최소화하고 클래스 간 차이를 최대화하는 것을 동시에 수행합니다. 대조적 잔차 증류(Contrastive Residual Distillation)는 크로스 모듈에서 학습된 정보를 기본 네트워크로 전송하는 데 활용됩니다. 우리는 기발하게 중앙 대칭 네트워크인 4분기 크로스 유사성(Quadruplet Cross Similarity, QCS) 네트워크를 설계하여, 크로스 모듈로부터 발생하는 그래디언트 충돌을 완화시키고 균형 잡히고 안정적인 훈련을 실현하였습니다. 이 방법은 차별적인 특징들을 적응적으로 추출하면서 불필요한 특징들을 분리할 수 있습니다. 훈련 시에는 크로스 주의 모듈들이 존재하지만, 추론 시에는 단 하나의 기본 분기만 유지되므로 추론 시간이 증가하지 않습니다. 광범위한 실험 결과, 제안된 방법이 여러 얼굴 표현 인식(Facial Expression Recognition, FER) 데이터셋에서 최신 성능을 달성함을 보여주었습니다.