11일 전

CoordViT: 좌표 정보 연결을 활용한 시각 Transformer 기반 음성 정서 인식 향상을 위한 새로운 방법

{Seung-Ho Lee, Jeongyoon Kim}
초록

최근 음성 감정 인식 분야에서, 음성 데이터 대신 스펙트로그램 이미지를 사용하는 Transformer 기반 방법이 기존의 합성곱 신경망(Convolutional Neural Networks, CNNs)보다 높은 정확도를 보였다. 시각 Transformer(Vision Transformer, ViT)는 입력 이미지에서 분할된 패치를 이용하여 높은 분류 정확도를 달성하지만, 선형 투영과 같은 임베딩 계층으로 인해 픽셀의 위치 정보가 손실되는 문제를 안고 있다. 본 논문에서는 이러한 문제를 해결하기 위해 입력 이미지에 좌표 정보를 결합하는 새로운 방법을 제안한다. 제안한 방법은 입력 이미지에 좌표 정보를 결합함으로써 픽셀의 위치 정보를 유지함으로써 CREMA-D 데이터셋에서 기존 최고 성능 기법 대비 정확도를 82.96%까지 향상시켰다. 결과적으로, 본 논문에서 제안하는 좌표 정보 결합 기법이 CNN뿐만 아니라 Transformer 아키텍처에도 효과적임을 입증하였다.

CoordViT: 좌표 정보 연결을 활용한 시각 Transformer 기반 음성 정서 인식 향상을 위한 새로운 방법 | 최신 연구 논문 | HyperAI초신경