
無音の唇の動きから音声を認識すること(リップリーディング)は、1) 唇の動きが音声を完全に表現するのに十分な情報を持たないという固有の情報不足と、2) 異なる発音でも類似した唇の動きを持つホモフォン(同音異義語)の存在により、困難な課題となっています。本論文では、これらの二つの課題を緩和するために Multi-head Visual-audio Memory (MVM) を提案します。まず、MVM はオーディオ・ビジュアルデータセットを使用して訓練され、ペアになったオーディオ・ビジュアル表現の相互関係をモデル化することでオーディオ表現を記憶します。推論段階では、視覚入力のみで学習された相互関係を検証し、メモリから保存されたオーディオ表現を抽出することが可能となります。これにより、リップリーディングモデルは抽出されたオーディオ表現を使用して不足している視覚情報を補完することができます。次に、MVM は視覚特徴を保存するためのマルチヘッドキー・メモリと、オーディオ知識を保存するための一つのバリュー・メモリで構成されています。これはホモフォン(同音異義語)を区別するために設計されています。マルチヘッドキー・メモリによって、MVM はメモリから可能な候補となるオーディオ特徴を抽出します。これにより、リップリーディングモデルは入力された唇の動きからどの発音が表現できるかを考えることができます。これはまた、ビゼム(viseme)からフォネム(phoneme)への一対多マッピングを明示的に実装しているとも言えます。さらに、MVM は複数の時間レベルで使用され、メモリからの情報取得時にコンテキストを考えつつホモフォン(同音異義語)を区別することができます。広範な実験結果により、提案手法がリップリーディングおよびホモフォン(同音異義語)識別において効果的であることが確認されました。