HyperAIHyperAI

Command Palette

Search for a command to run...

Console

CAS-VSR-W1k 唇認識データセット

日付

3年前

組織

論文URL

arxiv.org

ライセンス

非商用

Discordコミュニティに参加
Featured Image

CAS-VSR-W1k (以前は LRW-1000 として知られていました) は、公的に利用可能な中国語の語彙レベルの口唇音声データ セットとしては最大のものです。このデータセットには 1,000 の品詞が含まれており、2,000 人以上の話者からの 700,000 のサンプルが含まれています。このデータセットには 1,000,000 を超える漢字インスタンスが含まれています。

各カテゴリは、1 つまたは複数の漢字で構成される北京語の音節に対応します。このデータセットは、さまざまな音声モードや画像条件にわたる自然な変化をカバーし、現実世界のアプリケーションで遭遇する課題を組み込むように設計されています。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています