17일 전

SLUE: 자연스러운 음성에 대한 구어 언어 이해 평가를 위한 새로운 벤치마크 작업

Suwon Shon, Ankita Pasad, Felix Wu, Pablo Brusco, Yoav Artzi, Karen Livescu, Kyu J. Han
SLUE: 자연스러운 음성에 대한 구어 언어 이해 평가를 위한 새로운 벤치마크 작업
초록

음성 처리 분야의 발전은 공유되는 데이터셋과 벤치마크의 존재에 힘입어 촉진되어 왔다. 전통적으로 이러한 자료들은 자동 음성 인식(ASR), 발화자 식별 등 저수준의 작업에 집중되어 왔다. 그러나 최근에는 엔드투엔드 모델을 활용한 고수준의 구두 언어 이해 작업에 대한 관심이 높아지고 있으나, 이러한 작업을 위한 주석이 달린 데이터셋은 여전히 부족한 실정이다. 한편, 최근 연구들은 일반적인 표현을 사전 훈련한 후 비교적 적은 레이블 데이터로 여러 작업에 대해 미세 조정할 수 있음을 보여주고 있다. 본 연구에서는 제한된 크기의 주석된 훈련 데이터셋과 해당 평가 데이터셋을 포함하는 ‘구두 언어 이해 평가(SLUE)’를 위한 벤치마크 작업 모음의 구축을 제안한다. 이 자원은 연구 공동체가 성과를 추적하고 고수준 작업을 위한 사전 훈련된 표현의 성능을 평가하며, 파이프라인 방식과 엔드투엔드 방식 중 어느 것이 더 유용한지와 같은 열린 질문들을 탐구할 수 있도록 지원할 것이다. 본 보고서에서는 SLUE 벤치마크의 첫 번째 단계를 제시하며, 이는 명명된 실체 인식(NER), 감성 분석, 그리고 해당 데이터셋에 대한 ASR을 포함한다. 본 연구는 읽거나 합성된 것이 아닌 자연스럽게 생성된 음성에 초점을 맞추고, 자유롭게 이용 가능한 데이터셋을 사용한다. 또한 VoxCeleb 및 VoxPopuli 데이터셋의 일부에 대해 새로운 전사 및 주석을 제공하고, 기준 모델에 대한 평가 지표와 결과를 제시하며, 기준 모델 재현 및 새로운 모델 평가를 위한 오픈소스 툴킷도 함께 제공한다.

SLUE: 자연스러운 음성에 대한 구어 언어 이해 평가를 위한 새로운 벤치마크 작업 | 최신 연구 논문 | HyperAI초신경