지식 전이를 통한 시간 주파수 상관관계 및 위치 정보 학습을 활용한 스펙트로그램에서의 음성 정서 인식 정확도 향상 방법

본 논문에서는 음성 감정 인식(Speech Emotion Recognition, SER)의 정확도를 향상시키기 위해 주파수(y축)와 시간(x축) 간의 상관관계를 스펙트로그램에서 시각적 변형(Vision Transformer, ViT)을 활용하여 주목하고, ViT 간에 위치 정보를 지식 전이(Knowledge Transfer)를 통해 전달하는 방법을 제안한다. 제안하는 방법은 다음과 같은 독창성을 갖는다.i) 로그-멜 스펙트로그램을 수직 방향으로 분할한 패치를 사용하여 주파수의 시간에 따른 상관관계를 분석한다. 이러한 패치 구조는 특정 감정과 관련된 가장 중요한 주파수들이 언제 발화되었는지를 정확히 연결할 수 있다.ii) 이미지 좌표 인코딩(Image Coordinate Encoding)을 제안한다. 이는 ViT에 적합한 절대적 위치 인코딩 방식으로, 이미지의 x, y 좌표를 -1에서 1로 정규화한 후 이미지 데이터와 연결함으로써 ViT에 유효한 절대적 위치 정보를 효과적으로 제공한다.iii) 특징 맵 매칭(Feature Map Matching)을 통해 교사 네트워크(Teacher Network)의 국소성(Locality)와 위치 정보를 학생 네트워크(Student Network)로 효과적으로 전달한다. 교사 네트워크는 컨볼루션 스템(Convolutional Stem)을 통해 국소성과 이미지 좌표 인코딩을 통한 절대 위치 정보를 포함한 ViT이며, 학생 네트워크는 기본 ViT 구조에서 위치 인코딩이 누락된 구조이다. 특징 맵 매칭 단계에서는 두 네트워크의 특징 맵 간 차이를 최소화하기 위해 평균 절대 오차(Mean Absolute Error, L1 손실)를 사용하여 학습한다. 제안된 방법의 타당성을 검증하기 위해, SAVEE, EmoDB, CREMA-D 세 가지 음성 감정 데이터셋을 로그-멜 스펙트로그램으로 변환하여 비교 실험을 수행하였다. 실험 결과, 제안한 방법은 가중 평균 정확도(Weighted Accuracy) 측면에서 기존 최첨단 기법들을 뛰어넘는 성능을 보였으며, 동일한 성능을 달성하기 위해 필요한 부동소수점 연산 수(Floating Point Operations, FLOPs)도 크게 감소시켰다. 종합적으로, 제안된 방법은 효율성과 성능을 동시에 향상시킴으로써 SER 분야에 유망한 솔루션을 제공한다.