AISHELL-4 は、会議シナリオでの音声処理のために 8 チャンネルの円形マイク アレイによって収集された、実際に録音された大規模な中国語音声データ セットです。データセットは 211 件の記録された会議セッションで構成されており、各会議セッションには 4 ~ 8 人の講演者が含まれており、合計期間は 120 時間です。このデータセットは、マルチスピーカー処理の高度な研究と実際の応用シナリオを 3 つの側面から結合することを目的としています。実際に録音された会議では、AISHELL-4 は、会話中にリアルな音響と豊かな自然な音声機能 (短い休止、音声の重複、話者の素早い回転、ノイズなど) を提供します。同時に、AISHELL では会議ごとに正確な文字起こしと発言者の音声アクティビティが提供されます。これにより、研究者は、音声フロントエンド処理、音声認識、話者の二値化などの個々のタスクから、マルチモーダル モデリングや関連タスクの共同最適化に至るまで、会議処理のさまざまな側面を調査できるようになります。研究チームはまた、現場で再現可能な研究を促進するためのベースライン システムとして、PyTorch ベースのトレーニングおよび評価フレームワークをリリースしました。
做种 1
下载中 1
已完成 45
总下载 209