17일 전

배치 트랜스포머: 배치에서 어텐션 찾기

Myung Beom Her, Jisu Jeong, Hojoon Song, Ji-Hyeong Han
배치 트랜스포머: 배치에서 어텐션 찾기
초록

얼굴 표정 인식(Facial Expression Recognition, FER)은 인간-컴퓨터 상호작용 등 ‘실외 환경(in-the-wild)’에서 컴퓨터 비전 분야에서 큰 주목을 받고 있다. 그러나 FER 이미지에는 가려짐(occlusion), 낮은 해상도, 자세 변화, 조명 변화, 그리고 주관성 등 다양한 불확실성이 존재하며, 이는 일부 표정이 타깃 레이블과 일치하지 않는 경우를 포함한다. 이러한 요인들로 인해 노이즈가 심한 단일 이미지에서 얻을 수 있는 정보는 극히 제한적이며 신뢰할 수 없게 된다. 이는 FER 작업의 성능을 심각하게 저하시킬 수 있다. 이러한 문제를 해결하기 위해, 우리는 배치 내 여러 이미지에서 추출된 특징을 기반으로 신뢰할 수 있는 정보를 추출하고 노이즈 데이터에서 과적합(overfitting)을 방지하기 위해, 제안된 클래스 배치 주의(Con Class Batch Attention, CBA) 모듈을 포함한 배치 트랜스포머(Batch Transformer, BT)를 제안한다. 또한, 각 레벨 간의 상관관계를 포착함으로써 특정 특징에 대한 과적합을 방지하기 위해 다중 수준 주의(Multi-level Attention, MLA)를 추가로 제안한다. 본 논문에서는 위의 제안들을 통합한 배치 트랜스포머 네트워크(Batch Transformer Network, BTN)를 제시한다. 다양한 FER 벤치마크 데이터셋에서 수행한 실험 결과, 제안한 BTN이 FER 분야의 최신 기술을 일관되게 초월함을 보였다. 대표적인 결과들은 제안된 BTN이 FER 작업에 있어 높은 잠재력을 지닌다는 점을 입증한다.

배치 트랜스포머: 배치에서 어텐션 찾기 | 최신 연구 논문 | HyperAI초신경