ARBEx: 신뢰성 균형 조정을 통한 주의력 기반 특징 추출을 위한 강건한 표정 학습

본 논문에서는 ARBEx라는 프레임워크를 소개합니다. ARBEx는 Vision Transformer에 의해 구동되며 신뢰성 균형을 통해 얼굴 표현 학습(FEL) 작업에서 부족한 클래스 분포, 편향, 그리고 불확실성을 해결하기 위한 새로운 주의 기반 특징 추출 프레임워크입니다. 우리는 데이터 전처리 및 정제 방법들을 강화하고 창(window)-기반 크로스-어텐션 Vision Transformer(ViT)를 사용하여 데이터의 최대 성능을 끌어내는데 중점을 두었습니다. 또한, 라벨 분포와 다중 헤드 자기 주의 메커니즘을 활용하여 임베딩 공간 내에서 학습 가능한 앵커 포인트를 도입하여 신뢰성 균형을 통해 약한 예측 성능을 최적화하였습니다. 이는 앵커 포인트, 주의 점수, 그리고 신뢰도 값을 활용하여 라벨 예측의 탄력성을 향상시키는 전략입니다. 올바른 라벨 분류를 보장하고 모델의 차별화 능력을 개선하기 위해 앵커 손실(anchor loss)을 도입하였으며, 이는 앵커 포인트 간 큰 마진(margin)을 유도합니다. 또한 학습 가능한 다중 헤드 자기 주의 메커니즘이 정확한 라벨 식별에 중요한 역할을 합니다. 이러한 접근 방식은 예측의 신뢰성을 개선하는 데 필요한 핵심 요소를 제공하며, 최종 예측 능력에 상당히 긍정적인 영향을 미칩니다. 우리의 적응형 모델은 다양한 인식 작업에서 발생할 수 있는 문제들을 사전에 방지하기 위해 어떠한 딥 네URAL 네트워크에도 통합될 수 있습니다. 다양한 환경에서 수행된 광범위한 실험 결과에 따르면, 우리의 전략은 현재 가장 앞서가는 방법론들보다 우수한 성능을 보였습니다.