17일 전

장치 내 오디오 분류를 위한 시간적 지식 증류

Kwanghee Choi, Martin Kersner, Jacob Morton, Buru Chang
장치 내 오디오 분류를 위한 시간적 지식 증류
초록

기기 내 오디오 분류 모델의 성능을 향상시키는 것은 모바일 환경의 계산적 제약으로 인해 여전히 도전 과제로 남아 있다. 많은 연구에서 대규모 모델의 지식을 기기 내 모델로 전이함으로써 예측 성능을 향상시키기 위해 지식 증류(Knowledge Distillation) 기법을 활용하고 있다. 그러나 대부분의 기법은 오디오 분류 작업에 핵심적인 역할을 하는 시간 정보의 본질을 효과적으로 증류할 수 있는 메커니즘이 부족하거나, 유사한 아키텍처를 요구하는 경우가 많다. 본 논문에서는 대규모 트랜스포머 기반 모델의 어텐션 가중치에 내재된 시간 정보를 기기 내 모델에 효과적으로 통합할 수 있도록 설계된 새로운 지식 증류 방법을 제안한다. 제안하는 증류 방법은 CNN이나 RNN과 같은 비어텐션 기반 아키텍처를 포함한 다양한 아키텍처에 적용 가능하며, 추론 과정에서 원래의 네트워크 아키텍처를 유지할 수 있다. 오디오 이벤트 탐지 데이터셋과 노이즈가 있는 키워드 스팟팅 데이터셋을 대상으로 실시한 광범위한 실험을 통해, 제안한 방법이 다양한 기기 내 아키텍처에서 예측 성능을 전반적으로 향상시킴을 입증하였다.