AISHELL-DMASH データ セットは、実際のスマート ホーム シナリオで 2 つの異なる部屋で録音されており、データ セットには 30,000 時間の音声データが含まれています。録音機器は、近距離マイクと、室内の 7 つの異なる場所に配置された 7 セットの機器で構成されています。録音機器のセットには、iPhone、Android スマートフォン、iPad、マイク、および半径 5 cm の円形マイク アレイが含まれます。データセットには 511 人の講演者が含まれており、各講演者は 7 ~ 15 日の間隔で 3 回訪問しました。 AISHELL-DMASH データセットは、プロの音声アノテーターによって文字起こしされており、単語精度は 98% であり、声紋認識、音声認識、ウェイクワード認識などの研究に使用できます。