17日前

Europarl-ASR:ストリーミングASRベンチマークおよび音声データのフィルタリング/逐語訳のための議会討論の大規模コーパス

{Alfons Juan, Albert Sanchis, Jorge Civera, Alejandro Pérez-González-de-Martos, Nahuel Roselló, Pau Baquero-Arnal, Javier Iranzo-Sánchez, Adrià Giménez Pastor, Javier Jorge, Joan-Albert Silvestre-Cerdà, Gonçal V. Garcés Díaz-Munío}
要約

本稿では、欧州議会の会議から抽出した英語による議会討論を収録した大規模な音声・テキストコーパス「Europarl-ASR」を紹介する。このコーパスには、1,300時間に及ぶ音声データと、7000万語以上のテキストデータが含まれている。学習用データは、欧州議会が公表する非完全逐語的(non-fully-verbatim)公式議事録に基づき、時間軸で同期されたラベル付けが施されている。音声認識モデルの学習において逐語性(verbatimness)の重要性を考慮し、音声データのフィルタリングおよび逐語化技術を用いて、すべての発言について自動的にノイズ除去済みかつ自動逐語化されたトランスクリプトも提供している。さらに、ストリーミングASR(自動音声認識)のベンチマーク評価を目的として、18時間分の発言について手動で逐語化されたトランスクリプトを構築し、発話者依存および発話者非依存の開発・テストセットを確立した。開発・テスト用発言に対して、手動で作成された逐語的・非逐語的トランスクリプトが併存しているため、本コーパスは自動フィルタリングおよび逐語化技術の評価にも有用である。本論文では、コーパスの構築プロセスと特徴を詳述し、発話者依存・発話者非依存の両タスクに対して、3種類の学習用トランスクリプトセットを用いたオフラインおよびストリーミングASRのベースライン性能を提示する。本コーパスは、オープンライセンスのもとで公開されている。

Europarl-ASR:ストリーミングASRベンチマークおよび音声データのフィルタリング/逐語訳のための議会討論の大規模コーパス | 最新論文 | HyperAI超神経