2ヶ月前
Conformers は視覚的な音声認識に必要なすべてです
Chang, Oscar ; Liao, Hank ; Serdyuk, Dmitriy ; Shah, Ankit ; Siohan, Olivier

要約
視覚的な音声認識モデルは階層的な方法で視覚特徴を抽出します。下位レベルでは、唇や顔を描写する生のピクセルを処理する時間的感受野が限定された視覚フロントエンドがあります。上位レベルでは、大規模な時間的感受野にわたるフロントエンドによって生成された埋め込みに注目するエンコーダーがあります。これまでの研究では、音声認識に役立つより有用な特徴を抽出するために、視覚フロントエンドの改善に焦点が当てられてきました。しかし、私たちの研究では驚くべき結果が得られました。複雑な視覚フロントエンドは必ずしも必要ではなく、リソースを高度な視覚フロントエンドに割り当てる代わりに、線形の視覚フロントエンドと大規模なConformerエンコーダー(コンフォーマーエンコーダー)の組み合わせの方が低遅延、効率的なメモリ使用、および改善されたWER性能を達成することがわかりました。私たちはTED LRS3データセットにおける視覚的な音声認識において12.8%のWERという新しい最先端の成果を達成しました。これは4年前のオーディオのみのモデルと同等の性能を示しています。