HyperAIHyperAI

Command Palette

Search for a command to run...

CAS-VSR-W1k 唇認識データセット

Discordで議論

日付

3年前

データセット構成

Paper URL

arxiv.org

ライセンス

Non-Commercial

Featured Image

CAS-VSR-W1k (以前は LRW-1000 として知られていました) は、公的に利用可能な中国語の語彙レベルの口唇音声データ セットとしては最大のものです。このデータセットには 1,000 の品詞が含まれており、2,000 人以上の話者からの 700,000 のサンプルが含まれています。このデータセットには 1,000,000 を超える漢字インスタンスが含まれています。

各カテゴリは、1 つまたは複数の漢字で構成される北京語の音節に対応します。このデータセットは、さまざまな音声モードや画像条件にわたる自然な変化をカバーし、現実世界のアプリケーションで遭遇する課題を組み込むように設計されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています