17일 전

Europarl-ASR: 스트리밍 ASR 벤치마킹 및 음성 데이터 필터링/원문화를 위한 의회 토론 대규모 코퍼스

{Alfons Juan, Albert Sanchis, Jorge Civera, Alejandro Pérez-González-de-Martos, Nahuel Roselló, Pau Baquero-Arnal, Javier Iranzo-Sánchez, Adrià Giménez Pastor, Javier Jorge, Joan-Albert Silvestre-Cerdà, Gonçal V. Garcés Díaz-Munío}
초록

우리는 유럽의회 회의에서 추출한 영어로 된 1,300시간 분량의 녹음된 연설과 7,000만 토큰에 달하는 텍스트를 포함하는 대규모 음성 및 텍스트 코퍼스인 Europarl-ASR을 소개한다. 학습 데이터셋은 의회에서 공식적으로 발표한 비완전한 원문(비완전한 원문 기록)을 시간에 맞춰 정렬된 형태로 레이블링하였다. 원문성(verbatimness)은 음성 모델 학습에 있어 매우 중요한 요소이므로, 음성 데이터 필터링 및 원문화 기술을 기반으로 모든 연설에 대해 자동으로 노이즈 제거 및 자동 원문화된 트랜스크립트도 제공한다. 또한, 스트리밍 ASR 평가를 위한 신뢰할 수 있는 발화자 종속 및 발화자 독립 개발/테스트 세트를 구축하기 위해 18시간 분량의 연설을 수동으로 원문화하였다. 개발/테스트 연설에 대해 수동으로 작성된 원문이 아닌 원문 트랜스크립트를 함께 제공함으로써, 이 코퍼스는 자동 필터링 및 원문화 기술의 평가에 유용하게 활용될 수 있다. 본 논문에서는 이 코퍼스의 구성 및 생성 과정을 설명하며, 세 가지 학습 트랜스크립트 세트를 사용하여 발화자 종속 및 발화자 독립 작업에 대한 오프라인 및 스트리밍 ASR 베이스라인을 제시한다. 이 코퍼스는 오픈 라이선스 하에 공개적으로 제공된다.

Europarl-ASR: 스트리밍 ASR 벤치마킹 및 음성 데이터 필터링/원문화를 위한 의회 토론 대규모 코퍼스 | 최신 연구 논문 | HyperAI초신경