RAVDESS 데이터셋을 활용한 청각형 트랜스포머와 행동 단위를 이용한 다중 모달 정서 인식을 위한 제안
정서 인식은 의료나 자율주행 등 다양한 분야에서의 응용 가능성이 높아 연구계의 주목을 받고 있다. 본 논문에서는 음성 정서 인식기(SER)와 얼굴 정서 인식기(FER)로 구성된 자동 정서 인식 시스템을 제안한다. SER에 대해서는 사전 학습된 xlsr-Wav2Vec2.0 트랜스포머 모델을 두 가지 전이 학습 기법—임베딩 추출과 미세 조정(fine-tuning)—을 활용하여 평가하였다. 전체 모델에 다층 퍼셉트론을 추가하여 미세 조정한 경우가 가장 높은 정확도를 달성하였으며, 이는 새로운 학습을 시작하지 않고 기존 네트워크의 지식을 활용할 경우 더 강력한 학습이 가능하다는 점을 확인시켜 주었다. 얼굴 정서 인식기 측면에서는 영상에서 행동 단위(Action Units)를 추출하고, 정적 모델과 시계열 모델 간의 성능을 비교하였다. 결과적으로 시계열 모델이 정적 모델보다 약간 우수한 성능을 보였다. 오류 분석 결과, 고정정서 강도 프레임을 탐지할 수 있는 디텍터의 도입이 시각 시스템의 성능 향상에 기여할 수 있음을 시사하였으며, 이는 영상에서 새로운 방식으로 학습하는 데 대한 새로운 연구 방향을 제시하였다. 마지막으로, 두 모달리티를 지연 융합(late fusion) 전략을 통해 결합한 결과, 주체별 5겹 교차검증(5-CV) 평가에서 RAVDESS 데이터셋에서 8개의 정서를 분류하여 86.70%의 정확도를 달성하였다. 실험 결과는 각 모달리티가 사용자 정서 상태를 탐지하는 데 유의미한 정보를 포함하고 있으며, 그 조합을 통해 최종 시스템의 성능을 향상시킬 수 있음을 입증하였다.