17일 전

UniverSLU: 자연어 지시를 활용한 다양한 작업을 위한 통합 구술 언어 이해

Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Karen Livescu, Shinji Watanabe
UniverSLU: 자연어 지시를 활용한 다양한 작업을 위한 통합 구술 언어 이해
초록

최근 연구들은 다중 작업 능력을 갖춘 대규모 언어 모델을 활용하여 자연어 프롬프트를 통해 모델의 행동을 안내함으로써 전용 작업 모델을 능가하는 성능을 달성하고 있다. 이러한 사례에 영감을 받아, 우리는 단일 모델을 통해 다양한 구두 언어 이해(SLU) 작업을 동시에 수행할 수 있는지 여부를 탐구한다. 본 연구에서는 사전 훈련된 음성 인식 모델을 단일 토큰으로 구성된 작업 지시어를 사용하여 추가 작업에 적응시키는 방식으로 시작한다. 이후 자연어 지시문을 통해 작업을 설명하고 레이블 옵션 목록을 제시하는 형태로 지시어 튜닝(instruction tuning)을 통해 이 접근 방식을 강화한다. 이러한 방법은 추론 시 이미 학습된 작업 유형에 대해 새로운 작업 설명에 대해 일반화할 수 있어 사용자 친화성을 높인다. 우리는 단일 다중 작업 학습 모델인 'UniverSLU'가 17개 데이터셋과 9개 언어를 아우르는 12종의 음성 분류 및 시퀀스 생성 작업 유형에 대해 효과적으로 작동함을 입증한다. 대부분의 작업에서 UniverSLU는 경쟁력 있는 성능을 보이며, 때로는 전용 작업 모델을 능가하기도 한다. 또한 제로샷(zero-shot) 능력을 평가한 결과, 모델이 이미 학습된 작업 유형에 대해 새로운 데이터셋과 언어로도 일반화됨을 확인할 수 있었다.