日付

4年前

データセット構成

公開URL

vipl.ict.ac.cn

論文URL

arxiv.org

ライセンス

Non-Commercial

タグ

CAS-VSR-W1k (以前は LRW-1000 として知られていました) は、公的に利用可能な中国語の語彙レベルの口唇音声データセットとしては最大のものです。このデータセットには 1,000 の品詞が含まれており、2,000 人以上の話者からの 700,000 のサンプルが含まれています。このデータセットには 1,000,000 を超える漢字インスタンスが含まれています。各カテゴリは、1 つまたは複数の漢字で構成される北京語の音節に対応します。このデータセットは、さまざまな音声モードや画像条件にわたる自然な変化をカバーし、現実世界のアプリケーションで遭遇する課題を組み込むように設計されています。

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。