13일 전
Transformer-to-CNN 지식 증류를 통한 효율적인 대규모 오디오 태깅
Florian Schmid, Khaled Koutini, Gerhard Widmer

초록
오디오 스펙트로그램 트랜스포머 모델은 오디오 태깅 분야에서 기존에 지배적이었던 컨볼루션 신경망(CNN)을 압도하며 선도적인 위치를 차지하고 있다. 이들의 우수성은 AudioSet과 같은 대규모 데이터셋을 효과적으로 활용하고 모델을 확장할 수 있는 능력에 기반한다. 그러나 트랜스포머는 CNN에 비해 모델 크기와 계산 자원 측면에서 더 높은 요구를 한다. 본 연구에서는 성능은 뛰어나지만 복잡한 구조를 가진 트랜스포머로부터 사전에 학습된 지식을 활용하는 오프라인 지식 증류(Knowledge Distillation, KD) 기반의 효율적인 CNN 학습 절차를 제안한다. 제안된 학습 체계와 MobileNetV3 기반의 효율적인 CNN 설계를 통해, 파라미터 및 계산 효율성 측면에서 기존 솔루션을 넘어선 성능을 달성하며, 예측 정확성에서도 뛰어난 결과를 보였다. 다양한 복잡도 수준의 모델을 제공하며, 저복잡도 모델부터 AudioSet에서 새로운 최고 성능인 0.483 mAP를 달성하는 모델까지 확장 가능하다. 소스 코드는 다음 링크에서 확인할 수 있다: https://github.com/fschmid56/EfficientAT