HyperAIHyperAI

Command Palette

Search for a command to run...

AISHELL-Hi, Mia 中国語と英語のウェイクワード音声データベース

Discordで議論

日付

2年前

データセット構成

アイシェル

Paper URL

arxiv.org

HI-MIA データセットは、2019 AISHELL Speaker Verification Challenge で使用されました。これは、AISHELL-WakeUp-1 と呼ばれる大規模なデータベースから抽出されたものです。

データセットは HI-MIA データセットとトレーニングセットに分かれており、内容は中国語と英語のウェイクアップワード「Hi, Mia」です。データは、マイク アレイと Hi-Fi マイクを使用して実際の家庭環境で収集されました。収集プロセスとベースライン システムの開発について説明します。チャレンジで使用されたデータは、1 つの Hi-Fi マイクと 1/3/5 メートルの 16 チャンネル円形マイク アレイから抽出されました。内容は中国語の目覚めの言葉です。セット全体は、トレーニング (254 人)、開発 (42 人)、およびテスト (44 人) のサブセットに分かれています。テスト サブセットは、検証結果を評価するために、ペアになったターゲット/非ターゲットの回答を提供します。

AISHELL-WakeUp-1 音声データベースには、合計 3,936,003 件のウェイク ワード音声記録があり、合計 1561.12 時間になります。収録言語は中国語と英語、収録地域は中国です。録音されたテキストは、「こんにちは、ミア」と「こんにちは、ミア」というウェイクアップ ワードです。このデータセットでは、254 人の講演者が録音に参加するよう招待されました。録音プロセス中、実際の家庭環境に 7 つの録音位置が設定され、6 つの円形 16 ウェイ PDM マイク アレイ録音ボードが遠話ピックアップ (16kHz、16 ビット) に使用され、1 つの高忠実度マイクが遠話ピックアップ (16kHz、16 ビット) に使用されました。接話ピックアップ(44.1kHz、16bit)。このデータベースはプロの音声校正者によって書き起こされ、注釈が付けられており、単語精度は 100% で厳格な品質検査に合格しています。声紋認識や音声覚醒認識などの研究目的に使用できます。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています