7ヶ月前

コンピュータビジョン

マルチモーダル

自然言語処理

自然言語処理

マルチモーダル

コンピュータビジョン

Ya Zhao Rui Xu Mingli Song

概要

リップリーディングは、話者の口の動きからテキストを解読することを目指しています。近年、英語のリップリーディング手法は単語レベルと文レベルの両方で大きな進歩を遂げています。しかし、中国語（普通話）は音調言語であり、ピッチによって意味を区別するため、リップリーディングタスクにおける曖昧性が大幅に増加します。本論文では、中国語普通話用のカスケードシーケンスターシーケンスモデル（CSSMCM: Cascade Sequence-to-Sequence Model for Chinese Mandarin）を提案します。このモデルは、文を予測する際に明示的に音調をモデル化します。音調は視覚情報と文法構造に基づいてモデル化され、これらの情報とともに文の予測に使用されます。CSSMCMの評価のために、中国中央テレビジョンウェブサイトから10万件以上の自然な文を集めたデータセットCMLR（Chinese Mandarin Lip Reading）が収集され公開されました。CMLRデータセットで学習した結果、提案されたCSSMCMは最先端のリップリーディングフレームワークを超える性能を示し、中国語普通話のリップリーディングにおいて音調の明示的なモデル化の有効性が確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

コンピュータビジョン

マルチモーダル

自然言語処理

自然言語処理

マルチモーダル

コンピュータビジョン

Ya Zhao Rui Xu Mingli Song

概要

リップリーディングは、話者の口の動きからテキストを解読することを目指しています。近年、英語のリップリーディング手法は単語レベルと文レベルの両方で大きな進歩を遂げています。しかし、中国語（普通話）は音調言語であり、ピッチによって意味を区別するため、リップリーディングタスクにおける曖昧性が大幅に増加します。本論文では、中国語普通話用のカスケードシーケンスターシーケンスモデル（CSSMCM: Cascade Sequence-to-Sequence Model for Chinese Mandarin）を提案します。このモデルは、文を予測する際に明示的に音調をモデル化します。音調は視覚情報と文法構造に基づいてモデル化され、これらの情報とともに文の予測に使用されます。CSSMCMの評価のために、中国中央テレビジョンウェブサイトから10万件以上の自然な文を集めたデータセットCMLR（Chinese Mandarin Lip Reading）が収集され公開されました。CMLRデータセットで学習した結果、提案されたCSSMCMは最先端のリップリーディングフレームワークを超える性能を示し、中国語普通話のリップリーディングにおいて音調の明示的なモデル化の有効性が確認されました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

中国語普通話のリップリーディング用カスケードシーケンス・ツー・シーケンスモデル | 記事 | HyperAI超神経