HyperAIHyperAI

Command Palette

Search for a command to run...

Europarl-ASR:ストリーミングASRベンチマークおよび音声データのフィルタリング/逐語訳のための議会討論の大規模コーパス

概要

本稿では、欧州議会の会議から抽出した英語による議会討論を収録した大規模な音声・テキストコーパス「Europarl-ASR」を紹介する。このコーパスには、1,300時間に及ぶ音声データと、7000万語以上のテキストデータが含まれている。学習用データは、欧州議会が公表する非完全逐語的(non-fully-verbatim)公式議事録に基づき、時間軸で同期されたラベル付けが施されている。音声認識モデルの学習において逐語性(verbatimness)の重要性を考慮し、音声データのフィルタリングおよび逐語化技術を用いて、すべての発言について自動的にノイズ除去済みかつ自動逐語化されたトランスクリプトも提供している。さらに、ストリーミングASR(自動音声認識)のベンチマーク評価を目的として、18時間分の発言について手動で逐語化されたトランスクリプトを構築し、発話者依存および発話者非依存の開発・テストセットを確立した。開発・テスト用発言に対して、手動で作成された逐語的・非逐語的トランスクリプトが併存しているため、本コーパスは自動フィルタリングおよび逐語化技術の評価にも有用である。本論文では、コーパスの構築プロセスと特徴を詳述し、発話者依存・発話者非依存の両タスクに対して、3種類の学習用トランスクリプトセットを用いたオフラインおよびストリーミングASRのベースライン性能を提示する。本コーパスは、オープンライセンスのもとで公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
Europarl-ASR:ストリーミングASRベンチマークおよび音声データのフィルタリング/逐語訳のための議会討論の大規模コーパス | 記事 | HyperAI超神経