HyperAIHyperAI

Command Palette

Search for a command to run...

VOXLINGUA107:音声言語認識のためのデータセット

Tanel Alumae Jorgen Valk

概要

本稿では、音声言語認識(spoken language recognition)のタスクに向け、自動収集されたウェブ音声データの活用について検討する。まず、言語固有のWikipediaデータから半ランダムな検索キーワードを生成し、それらを用いてYouTubeから107言語分の動画を取得する。取得した動画に対して、音声活動検出(speech activity detection)および発話者ダイアライゼーション(speaker diarization)を適用し、音声を含むセグメントを抽出する。その後、後処理(post-filtering)を実施することで、特定言語に該当しない可能性が高いセグメントをデータベースから除去し、クラウドソーシングによる検証に基づく正解ラベルの割合を98%まで向上させた。これにより得られた学習データセット(VoxLingua107)の容量は6628時間(平均して1言語あたり62時間)に達し、検証済み発話文1609件からなる評価セットも併せて提供される。本データセットを用いて、さまざまな音声言語識別タスクに対する言語認識モデルを構築した。実験の結果、手動ラベル付けされた独自データセットを用いた場合と比較しても、自動取得された学習データを用いることで競争力のある性能が得られた。本データセットは公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています