17일 전

SpeechPrompt v2: 음성 분류 작업을 위한 Prompt Tuning

Kai-Wei Chang, Yu-Kai Wang, Hua Shen, Iu-thing Kang, Wei-Cheng Tseng, Shang-Wen Li, Hung-yi Lee
SpeechPrompt v2: 음성 분류 작업을 위한 Prompt Tuning
초록

Prompt tuning은 사전 훈련된 언어 모델(LM)의 출력을 직접 생성할 수 있도록 작은 수의 파라미터를 조정하는 기술이다. 최근 prompt tuning은 자연어 처리(NLP) 및 음성 처리 분야에서 저장 공간과 계산 효율성 측면에서 뛰어난 성능을 보여주며, 하나의 통합 프레임워크를 통해 다양한 작업에 대해 사전 훈련된 LM을 효율적으로 활용할 수 있는 후보 기법으로 부상하고 있다. 음성 처리 분야에서는 SpeechPrompt이 일부 음성 분류 작업에서 높은 파라미터 효율성과 경쟁력 있는 성능을 입증하였다. 그러나 SpeechPrompt이 대규모의 다양한 작업을 동시에 지원할 수 있는지에 대해서는 여전히 미해결 과제로 남아 있다. 본 연구에서는 다국어 및 음성의 억양 관련 작업을 포함하는 다양한 음성 분류 작업을 수행할 수 있는 prompt tuning 프레임워크인 SpeechPrompt v2를 제안한다. 실험 결과, SpeechPrompt v2는 통합 프레임워크 내에서 0.15M 미만의 훈련 가능한 파라미터로 기존 연구들과 경쟁 가능한 성능을 달성함을 확인하였다.