2ヶ月前
唇読の向上ための訓練戦略
Ma, Pingchuan ; Wang, Yujiang ; Petridis, Stavros ; Shen, Jie ; Pantic, Maja

要約
最近、孤立した単語のリップリーディングに関する一連の独立した研究で、いくつかの学習戦略と時間モデルが提案されています。しかし、最良の戦略を組み合わせることやそれぞれの影響を調査する可能性はまだ十分に探索されていません。本論文では、最先端のデータ拡張手法、時間モデル、および自己蒸留や単語境界指標を使用するなどの他の学習戦略について系統的に性能を評価しました。結果は、Time Masking (TM) が最も重要なデータ拡張手法であり、mixup がそれに次ぐことを示しています。また、Densely-Connected Temporal Convolutional Networks (DC-TCN) が孤立した単語のリップリーディングに最適な時間モデルであることも確認されました。自己蒸留や単語境界指標を使用することも有益ですが、その効果は比較的小さいです。これらのすべての方法を組み合わせることで、LRW データセットにおける現在の最先端性能に対して絶対的な改善率 4.6% の分類精度 93.4% を達成しました。さらに追加のデータセットでの事前学習を行うことで、性能は 94.1% まで向上します。各種学習戦略の誤り解析によると、認識が困難な単語の分類精度が向上することで全体的な性能が向上することが明らかになりました。