17일 전

SPGISpeech: 완전히 형식화된 엔드투엔드 음성 인식을 위한 5,000시간 분량의 전사된 금융 음성 데이터

Patrick K. O&#39, Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang, Oleksii Kuchaiev, Jagadeesh Balam, Yuliya Dovzhenko, Keenan Freyberg, Michael D. Shulman, Boris Ginsburg, Shinji Watanabe, Georg Kucsko
SPGISpeech: 완전히 형식화된 엔드투엔드 음성 인식을 위한 5,000시간 분량의 전사된 금융 음성 데이터
초록

영어 음성-텍스트 변환(STT) 기계학습 과제에서, 음성 모델은 전통적으로 대소문자 구분 없이 로마자 문자로만 훈련되며, 필요한 철자 규칙(예: 대문자 처리, 구두점 삽입, 비표준 단어의 표준화 등)은 별도의 후처리 모델을 통해 보정된다. 이는 시스템의 복잡성을 증가시키고 성능을 제한하는 요인으로 작용한다. 왜냐하면 음성 신호 내에 존재하는 의미 정보는 전사 결과에는 반영되지 않기 때문이다. 본 연구에서는 새로운 STT 과제를 제안한다. 바로 목표 레이블로 완전히 형식화된 텍스트를 출력하는 엔드투엔드 신경망 전사 모델이다. 우리는 전문적으로 전사된 수익 발표 회의 데이터 코퍼스(총 5,000시간)를 기반으로 한 기준 모델(Conformer 기반)을 제시하며, 이 모델은 CER(문자 오류율) 1.7을 달성했다. STT 연구 공동체에 기여하기 위해, 본 연구는 해당 데이터셋을 비상업적 사용을 위해 무료로 공개하며, 공개 링크는 https://datasets.kensho.com/datasets/scribe 에서 확인할 수 있다.