2달 전

Wav2Small: Wav2Vec2를 72K 파라미터로 축소하여 저자원 음성 감정 인식에 활용

Dionyssos Kounadis-Bastian; Oliver Schrüfer; Anna Derington; Hagen Wierstorf; Florian Eyben; Felix Burkhardt; Björn Schuller
Wav2Small: Wav2Vec2를 72K 파라미터로 축소하여 저자원 음성 감정 인식에 활용
초록

음성 감정 인식(Speech Emotion Recognition, SER)은 주석자 간의 상당한 불일치 문제를 극복하기 위해 높은 계산 자원이 필요합니다. 현재 SER는 흥분도(arousal), 지배성(dominance), 정서가치(valence) (A/D/V)의 차원적 주석으로 이동하고 있습니다. L2 거리와 같은 일반적인 메트릭은 주석자 의견의 합의가 이루어지지 않기 때문에 A/D/V 정확도 평가에 적합하지 않습니다. 그러나, Concordance Correlation Coefficient(CCC)는 모델의 출력이 개별 오디오의 L2 거리보다 전체 데이터셋의 CCC와 일치하도록 평가하는 대안적인 메트릭으로 등장하였습니다. 최근 연구에서는 각 A/D/V 차원에 대해 부동소수점(float) 값을 출력하는 wav2vec2 / wavLM 구조가 오늘날 A/D/V에서 가장 뛰어난(Sota) CCC를 달성함을 보여주었습니다. Wav2Vec2.0 / WavLM 가족은 높은 계산 부담을 가지지만, 인간 주석을 사용하여 작은 모델을 훈련시키는 것은 성공적이지 않았습니다.본 논문에서는 큰 트랜스포머 Sota A/D/V 모델을 교사/주석자(Teacher/Annotator)로 사용하여 5개의 학생 모델(4개의 MobileNets와 우리가 제안하는 Wav2Small)을 훈련시키는데, 이때 인간 주석 대신 교사 모델의 A/D/V 출력만을 사용합니다. 제안된 교사 모델은 MSP 팟캐스트 데이터셋에서 새로운 Sota를 설정하며, 정서가치 CCC = 0.676를 기록하였습니다. 우리는 MobileNetV4 / MobileNet-V3를 학생으로 선택하였는데,这是因为MobileNet是为了快速执行时间而设计的。为了保持韩语的流畅性和正式性,我将对最后一句进行适当的调整:우리는 MobileNetV4 / MobileNet-V3를 학생으로 선택하였는데, 이는 MobileNet이 빠른 실행 시간을 위해 설계되었기 때문입니다. 또한, 최소 매개변수와 RAM 소비를 위해 설계된 Wav2Small 아키텍처를 제안합니다. Wav2Small은 .onnx (양자화된) 파일 크기가 단 120KB로, 저자원 하드웨어에서도 A/D/V 처리에 잠재적인 해결책이 될 수 있으며, MobileNet-V4-Small의 3.12M 매개변수 대비 단 72K 매개변수만을 가지고 있습니다.

Wav2Small: Wav2Vec2를 72K 파라미터로 축소하여 저자원 음성 감정 인식에 활용 | 최신 연구 논문 | HyperAI초신경