日付

2年前

データセット構成

公開URL

論文URL

タグ

**HI-MIA データセットは、2019 AISHELL Speaker Verification Challenge で使用されました。**これは、AISHELL-WakeUp-1 と呼ばれる大規模なデータベースから抽出されたものです。データセットは HI-MIA データセットとトレーニングセットに分かれており、内容は中国語と英語のウェイクアップワード「Hi, Mia」です。データは、マイクアレイと Hi-Fi マイクを使用して実際の家庭環境で収集されました。紙収集プロセスとベースラインシステムの開発について説明します。チャレンジで使用されたデータは、1 つの Hi-Fi マイクと 1/3/5 メートルの 16 チャンネル円形マイクアレイから抽出されました。内容は中国語の目覚めの言葉です。セット全体は、トレーニング (254 人)、開発 (42 人)、およびテスト (44 人) のサブセットに分かれています。テストサブセットは、検証結果を評価するために、ペアになったターゲット/非ターゲットの回答を提供します。 **AISHELL-WakeUp-1 音声データベースには、合計 3,936,003 件のウェイクワード音声記録があり、合計 1561.12 時間になります。**収録言語は中国語と英語、収録地域は中国です。録音されたテキストは、「こんにちは、ミア」と「こんにちは、ミア」というウェイクアップワードです。このデータセットでは、254 人の講演者が録音に参加するよう招待されました。録音プロセス中、実際の家庭環境に 7 つの録音位置が設定され、6 つの円形 16 ウェイ PDM マイクアレイ録音ボードが遠話ピックアップ (16kHz、16 ビット) に使用され、1 つの高忠実度マイクが遠話ピックアップ (16kHz、16 ビット) に使用されました。接話ピックアップ（44.1kHz、16bit）。このデータベースはプロの音声校正者によって書き起こされ、注釈が付けられており、単語精度は 100% で厳格な品質検査に合格しています。声紋認識や音声覚醒認識などの研究目的に使用できます。

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。