18일 전

다중모달 특징 주의 및 오류 일관성 제약을 활용한 명백한 성격의 다중모달 평가

{Hamdi Dibeklioğlu, Uğur Güdükbay, Süleyman Aslan}
초록

성격 컴퓨팅과 정서 컴퓨팅은 성격 특성 인식이 핵심적인 분야로서 최근 여러 연구 분야에서 점차 증가하는 관심을 받고 있다. 본 연구에서는 영상 데이터로부터 사람의 '큰 다섯 가지 성격 특성(Big Five personality traits)'을 인식하는 새로운 접근 방식을 제안한다. 이를 위해 환경적 외관(장면), 얼굴 외관, 음성, 그리고 음성의 텍스트 변환(transcribed speech)이라는 네 가지 서로 다른 모달리티를 활용한다. 각 모달리티에 대해 전용의 하위 네트워크를 설계하여 신뢰할 수 있는 모달리티별 표현을 학습하고, 이를 주의 메커니즘(attention mechanism)을 통해 융합한다. 이 주의 메커니즘은 각 표현의 차원에 대해 재가중(weighting)을 수행하여 다중 모달 정보의 최적 조합을 도출한다. 또한, 추정해야 할 각 성격 특성에 대해 동등한 중요도를 부여하도록 하기 위해, 특성별 오차가 가능한 한 근접하도록 유지하는 일관성 제약 조건을 포함한 새로운 손실 함수를 도입한다. 모델의 신뢰성을 further 향상시키기 위해, 각 모달리티별 하위 네트워크의 백본으로 최신의 상태(SOTA, state-of-the-art) 아키텍처인 ResNet, VGGish, ELMo를 활용하며, 시간적 동역학을 포착하기 위해 다층 Long Short-Term Memory(LSTM) 네트워크를 보완적으로 사용한다. 다중 모달 최적화의 계산 복잡도를 최소화하기 위해, 두 단계 모델링 전략을 적용한다. 먼저 각 모달리티별 하위 네트워크를 독립적으로 학습하고, 이후 전체 네트워크를 공동 최적화(fine-tuning)하여 다중 모달 데이터를 종합적으로 모델링한다. 대규모 ChaLearn First Impressions V2 챌린지 데이터셋에서 본 모델의 신뢰성과 각 고려된 모달리티의 정보량을 평가하였다. 실험 결과는 제안된 주의 메커니즘과 오차 일관성 제약 조건의 효과를 입증하였다. 개별 모달리티 중에서 얼굴 정보가 가장 높은 성능을 보였으나, 네 가지 모달리티를 모두 활용한 경우 본 모델은 평균 정확도 91.8%를 달성하여 자동 성격 분석 분야의 최신 기술을 넘어선 성과를 보였다.