
要約
リップリーディング、または視覚的な音声認識は、映像から口唇の動きを解析することで音声内容を認識することを目指しています。近年、急速に発展した深層学習技術や大規模なリップリーディングデータセットのおかげで、この分野には魅力的な進歩が見られています。既存の多くの手法は、複雑なニューラルネットワークを構築し、いくつかのカスタマイズされた訓練戦略を用いることで高い性能を達成していますが、これらの戦略はしばしば簡潔な説明しか与えられず、場合によってはソースコードにのみ記載されています。私たちは、これらの戦略を適切に利用することで、モデル自体を大幅に変更せずに興味深い改善がもたらされることを見出しました。これらの戦略の無視できない効果と、有効なリップリーディングモデルを訓練する現状の困難さを考えると、初めて包括的な定量的研究と比較分析を行い、リップリーディングにおける異なる選択肢の効果を示すことにしました。基準パイプラインに一部の容易に得られる改良を導入するだけで、LRWおよびLRW-1000という最大級の公開リップリーディングデータセットにおいて性能が明显的に向上し、それぞれ83.7%から88.4%へと38.2%から55.7%へと向上しました。これらの結果は既存の最先端の成果と匹敵し、甚至凌駕しています。