要約
本稿では、音声言語認識(spoken language recognition)のタスクに向け、自動収集されたウェブ音声データの活用について検討する。まず、言語固有のWikipediaデータから半ランダムな検索キーワードを生成し、それらを用いてYouTubeから107言語分の動画を取得する。取得した動画に対して、音声活動検出(speech activity detection)および発話者ダイアライゼーション(speaker diarization)を適用し、音声を含むセグメントを抽出する。その後、後処理(post-filtering)を実施することで、特定言語に該当しない可能性が高いセグメントをデータベースから除去し、クラウドソーシングによる検証に基づく正解ラベルの割合を98%まで向上させた。これにより得られた学習データセット(VoxLingua107)の容量は6628時間(平均して1言語あたり62時間)に達し、検証済み発話文1609件からなる評価セットも併せて提供される。本データセットを用いて、さまざまな音声言語識別タスクに対する言語認識モデルを構築した。実験の結果、手動ラベル付けされた独自データセットを用いた場合と比較しても、自動取得された学習データを用いることで競争力のある性能が得られた。本データセットは公開されている。