음성 정서 인식을 위한 음향 특성 및 텍스트 특성에 대한 자기 주의 가중치 보정 기반 기법
말 감정 인식(Speech Emotion Recognition, SER)은 화자 의도를 이해하는 데 필수적인 기술이다. 최근 일부 연구 그룹들은 음성 시퀀스로부터 특징을 추출하기 위해 양방향 장단기 기억망(BLSTM)을 사용하고, 음성 시퀀스의 중요 부분에 주목하기 위해 자기주의(self-attention) 메커니즘을 활용하여 SER 성능을 향상시키려는 시도를 하고 있다. 또한 음성 정보와 텍스트 정보를 결합하면 SER 성능이 더욱 향상될 수 있는데, 이는 자동 음성 인식기(Automatic Speech Recognizer, ASR)를 통해 자동으로 수행할 수 있다. 그러나 감정이 포함된 음성에서는 ASR의 성능이 저하되는 문제가 있다. 감정이 포함된 음성 상황에서 ASR 성능을 개선하는 방법은 존재하지만, 이는 ASR 모델의 세부 조정(fine-tuning)을 필요로 하며, 높은 계산 비용을 수반하고, 감정 존재 여부를 판단하는 데 중요한 단서를 상실할 수 있다는 단점이 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 신뢰도 측정 기반의 자기주의 가중치 보정(Self-Attention Weight Correction, SAWC)을 활용한 BLSTM과 자기주의 기반 SER 방법을 제안한다. 이 방법은 SER의 음성 및 텍스트 특징 추출기에서 적용되어, ASR 오류 가능성이 높은 음성 구간과 단어의 중요도 가중치를 조정한다. 제안한 SAWC는 텍스트 특징에서는 음성 인식 오류가 발생한 단어의 중요도를 감소시키면서도, 해당 단어를 포함한 음성 구간의 중요도는 음성 특징에서 강조한다. IEMOCAP(Interactive Emotional Dyadic Motion Capture) 데이터셋을 이용한 실험 결과, 제안한 방법은 가중 평균 정확도 76.6%를 달성하여 기존 최첨단 방법들을 모두 상회함을 확인하였다. 또한, 제안한 SAWC가 각 특징 추출기 내에서 어떻게 작동하는지에 대해 추가적으로 분석하였다.