
要約
唇読み(lip-reading)は、唇の動きの時系列から発話内容を推定するタスクであり、入力となる唇の動きの画像時系列を、発話内容のテキスト時系列に変換する典型的なシーケンス・トゥ・シーケンス(seq2seq)問題と捉えることができる。しかし、従来のseq2seqモデルの学習プロセスは、しばしば二つの問題に直面している。第一に、「教師強制(teacher-forcing)」戦略に起因する露出バイアス(exposure bias)であり、第二に、判別的最適化目標(通常は交差エントロピー損失)と最終評価指標(通常は文字誤り率または単語誤り率)との不一致である。本論文では、これら二つの課題に対処するため、新しい擬似畳み込み型方策勾配(pseudo-convolutional policy gradient: PCPG)に基づく手法を提案する。まず、本手法では、評価指標(本論文では文字誤り率)を報酬として導入し、元の判別的最適化目標と併せてモデルを最適化する。次に、畳み込み演算の局所的認識特性(local perception property)に着想を得て、報酬および損失の次元において擬似畳み込み操作を施すことで、各時刻における周囲の文脈をより適切に捉え、全体の最適化に向けた堅牢な報酬と損失を生成する。最後に、単語レベルおよび文レベルの複数のベンチマークにおいて、包括的な比較と評価を実施した。その結果、他の関連手法と比較して顕著な性能向上が確認され、すべての挑戦的なベンチマークにおいて、新たな最良性能(state-of-the-art)を達成するか、あるいは競争力のある精度を報告した。これにより、本手法の優位性が明確に示された。