9日前

耳を傾ける唇:音声認識モデルの知識蒸留による唇読の向上

Ya Zhao, Rui Xu, Xinchao Wang, Peng Hou, Haihong Tang, Mingli Song
耳を傾ける唇:音声認識モデルの知識蒸留による唇読の向上
要約

近年、ディープラーニングの進展と大規模データセットの可用性に伴い、唇読み(lip reading)技術は飛躍的な進歩を遂げている。しかし、唇の動きが持つ曖昧な性質から、その動きから判別力のある特徴を抽出することが困難であるため、現状では唇読みの性能は対応する音声認識技術に比べて依然として劣っている。本論文では、音声認識モデルから学習することで唇読みの性能を強化することを目的とした新規手法「Lip by Speech(LIBS)」を提案する。本手法の根拠は、音声認識モデルから抽出される特徴が、唇の微細な動きからは得にくい補完的かつ判別力のある手がかりを提供する可能性があるという点にあり、これにより唇読みモデルの学習が効果的に促進されるという点にある。具体的には、音声認識モデルからマルチスケールの知識を蒸留(knowledge distillation)する手法を採用する。この異モーダルな知識蒸留を実現するため、音声と映像の長さの不一致に対処する効果的なアライメント手法と、音声認識モデルの予測を精緻化するための革新的なフィルタリング戦略を用いている。提案手法は、CMLRおよびLRS2データセットにおいて、それぞれベースライン比で文字誤り率(character error rate)で7.66%および2.75%の向上を達成し、現時点での最先端性能を記録した。

耳を傾ける唇:音声認識モデルの知識蒸留による唇読の向上 | 最新論文 | HyperAI超神経