HyperAI超神経

CAS-VSR-W1k 唇認識データセット

日付

3年前

組織

ライセンス

非商业用途

カテゴリ

ダウンロードヘルプ
特色图像

CAS-VSR-W1k (以前は LRW-1000 として知られていました) は、公的に利用可能な中国語の語彙レベルの口唇音声データ セットとしては最大のものです。このデータセットには 1,000 の品詞が含まれており、2,000 人以上の話者からの 700,000 のサンプルが含まれています。このデータセットには 1,000,000 を超える漢字インスタンスが含まれています。

各カテゴリは、1 つまたは複数の漢字で構成される北京語の音節に対応します。このデータセットは、さまざまな音声モードや画像条件にわたる自然な変化をカバーし、現実世界のアプリケーションで遭遇する課題を組み込むように設計されています。