2달 전

Patchout을 사용한 오디오 트랜스포머의 효율적인 훈련

Koutini, Khaled ; Schlüter, Jan ; Eghbal-zadeh, Hamid ; Widmer, Gerhard
Patchout을 사용한 오디오 트랜스포머의 효율적인 훈련
초록

트랜스포머 기반 모델이 자연어 처리(NLP) 분야에서 큰 성공을 거두면서, 이 아키텍처를 비전과 오디오 등 다른 영역으로 확장하려는 다양한 시도가 이루어지고 있습니다. 최근 연구에서는 트랜스포머가 비전과 오디오 작업에서 컨볼루션 신경망(CNNs)보다 우수한 성능을 보일 수 있음을 입증하였습니다. 그러나 트랜스포머 모델의 주요 단점 중 하나는 잘 확립된 CNNs와 비교하여 계산 복잡성입니다. 트랜스포머에서는 입력 길이에 따라 계산 및 메모리 복잡성이 이차적으로 증가하는 것으로 알려져 있습니다. 따라서 트랜스포머의 최적화에 많은 노력이 기울여졌지만, 종종 예측 성능이 저하되는 대가를 치르곤 하였습니다. 본 연구에서는 오디오 스펙트로그램에 대한 트랜스포머의 최적화와 규제를 위한 새로운 방법을 제안합니다. 제안된 모델들은 Audioset에서 새로운 최고 수준의 성능을 달성하였으며, 일반 소비자용 GPU 하나로도 훈련될 수 있습니다. 또한, 본 연구에서는 성능뿐만 아니라 훈련 속도에서도 CNNs를 능가하는 트랜스포머 모델을 제안합니다. 소스 코드: https://github.com/kkoutini/PaSST