17일 전

POSTER++: 더 간단하고 강력한 감정 인식 네트워크

Jiawei Mao, Rui Xu, Xuesong Yin, Yuanqi Chang, Binling Nie, Aibin Huang
POSTER++: 더 간단하고 강력한 감정 인식 네트워크
초록

얼굴 표정 인식(Facial Expression Recognition, FER)은 인간-컴퓨터 상호작용을 포함한 다양한 실세계 응용 분야에서 중요한 역할을 한다. POSTER는 이중 스트림 피라미드 크로스퓨전 설계를 통해 얼굴 랜드마크 특징과 이미지 특징을 효과적으로 결합함으로써 FER 분야에서 최고 성능(State-of-the-Art, SOTA)을 달성하고 있다. 그러나 POSTER의 아키텍처는 분명히 복잡하며, 이로 인해 높은 계산 비용이 발생한다. 이러한 계산 부담을 완화하기 위해 본 논문에서는 POSTER++를 제안한다. POSTER++는 크로스퓨전, 이중 스트림, 다중 해상도 특징 추출 세 가지 측면에서 POSTER를 개선한다. 크로스퓨전에서는 기존의 일반적인 크로스 어텐션 메커니즘 대신 윈도우 기반 크로스 어텐션 메커니즘을 도입한다. 이중 스트림 설계에서는 이미지에서 랜드마크로의 브랜치를 제거한다. 다중 해상도 특징 추출 측면에서는 POSTER의 피라미드 설계를 대체하여 이미지와 랜드마크의 다중 해상도 특징을 결합하는 방식을 채택한다. 여러 표준 데이터셋에서 실시한 광범위한 실험 결과, POSTER++는 최소한의 계산 비용으로도 SOTA 수준의 FER 성능을 달성함을 입증하였다. 예를 들어, POSTER++는 RAF-DB에서 92.21%, AffectNet(7클래스)에서 67.49%, AffectNet(8클래스)에서 63.77%의 정확도를 각각 기록하였으며, 이는 단지 8.4G의 부동소수점 연산(FLOPs)과 43.7M의 파라미터(Param)를 사용한 결과이다. 이는 제안한 개선 방안의 효과성을 명확히 보여준다.

POSTER++: 더 간단하고 강력한 감정 인식 네트워크 | 최신 연구 논문 | HyperAI초신경