1ヶ月前

中国語普通話のリップリーディング用カスケードシーケンス・ツー・シーケンスモデル

Ya Zhao; Rui Xu; Mingli Song
中国語普通話のリップリーディング用カスケードシーケンス・ツー・シーケンスモデル
要約

リップリーディングは、話者の口の動きからテキストを解読することを目指しています。近年、英語のリップリーディング手法は単語レベルと文レベルの両方で大きな進歩を遂げています。しかし、中国語(普通話)は音調言語であり、ピッチによって意味を区別するため、リップリーディングタスクにおける曖昧性が大幅に増加します。本論文では、中国語普通話用のカスケードシーケンスターシーケンスモデル(CSSMCM: Cascade Sequence-to-Sequence Model for Chinese Mandarin)を提案します。このモデルは、文を予測する際に明示的に音調をモデル化します。音調は視覚情報と文法構造に基づいてモデル化され、これらの情報とともに文の予測に使用されます。CSSMCMの評価のために、中国中央テレビジョンウェブサイトから10万件以上の自然な文を集めたデータセットCMLR(Chinese Mandarin Lip Reading)が収集され公開されました。CMLRデータセットで学習した結果、提案されたCSSMCMは最先端のリップリーディングフレームワークを超える性能を示し、中国語普通話のリップリーディングにおいて音調の明示的なモデル化の有効性が確認されました。

中国語普通話のリップリーディング用カスケードシーケンス・ツー・シーケンスモデル | 最新論文 | HyperAI超神経