9日前

EfficientNetV2とTransformersを活用した高精度かつリソース効率的なリップリーディング

{Gerasimos Potamianos, Alexandros Koumparoulis}
要約

我々は、一般的かつ挑戦的なベンチマークにおいて最先端の性能を達成する、リソース効率の高いエンドツーエンド型の唇読み(lipreading)アーキテクチャを提案する。具体的には以下の貢献を行う:第一に、画像分類において近年大きな成功を収めたEfficientNetアーキテクチャおよび我々の以前のリソース効率型唇読みモデル(MobiLipNet)の研究を踏まえ、唇読みタスクにEfficientNetを導入する。第二に、文献で現在最も一般的に用いられている3Dフロントエンドに、ネットワークの高性能化を阻害する最大プーリング(max-pool)層が含まれていることを指摘し、その削除を提案する。第三に、Transformerエンコーダーの導入により、システムのバックエンドのロバスト性を向上させる。提案手法は、「Lipreading In-The-Wild」(LRW)コーパス上で評価された。LRWはBBCテレビ放送の短い動画セグメントから構成されるデータベースである。提案ネットワーク(Tバリアント)は、現在の最先端性能を0.17%絶対的に上回る88.53%の単語正確率を達成するとともに、計算量は5倍も低減されている。さらに、スケーリングされたバージョン(Lバリアント)では89.52%の正確率を達成し、LRWコーパスにおいて新たな最先端結果を樹立した。

EfficientNetV2とTransformersを活用した高精度かつリソース効率的なリップリーディング | 最新論文 | HyperAI超神経