
要約
リップリーディングはニューラルネットワークの再興により、著しい進展を遂げてきました。近年の研究は、最適なアーキテクチャの探索による性能向上や一般化能力の改善といった側面に注目しています。しかし、現行の手法と実用的な場面におけるリップリーディングの有効な導入に求められる要件との間に、依然として大きなギャップが存在しています。本研究では、このギャップを大幅に埋める一連の革新を提案します。まず、自己蒸留(self-distillation)を用いて、LRWおよびLRW-1000データセットにおいて、それぞれ88.5%および46.6%という、大幅に向上した最先端の性能を達成しました。次に、新たな深層分離時系列畳み込みネットワーク(Depthwise Separable Temporal Convolutional Network: DS-TCN)ヘッドを含む一連のアーキテクチャの変更を提案し、既に非常に効率的な元のモデルに対し、計算コストを僅かにまで削減しました。さらに、知識蒸留(knowledge distillation)が軽量モデルの性能回復に非常に効果的であることを示しました。これにより、精度と効率のバランスを異なる条件で調整可能なモデル群を実現しました。特に注目すべきは、現在の最先端モデルと同等の性能を維持しつつ、計算コストを8.2倍、パラメータ数を3.9倍削減した軽量モデルの構築に成功した点です。本研究の成果が、リップリーディングモデルの実用的応用の実現に貢献することを期待しています。