2ヶ月前
マスクされた多モーダルクラスタ予測による音声-視覚的な言語表現の学習
Shi, Bowen ; Hsu, Wei-Ning ; Lakhotia, Kushal ; Mohamed, Abdelrahman

要約
話す様子のビデオ記録には、話者の口唇の動きと発生する音から得られる音声表現学習に強力な信号となる相関した音響情報と視覚情報が含まれています。本稿では、Audio-Visual Hidden Unit BERT (AV-HuBERT) を導入します。これは、音声と視覚情報を組み合わせた自己監督表現学習フレームワークであり、マルチストリームのビデオ入力をマスキングし、自動的に発見され反復的に改良される多モーダル隠れユニットを予測します。AV-HuBERTは、口唇読み取りと自動音声認識の両方に有益な強力な音声視覚表現を学習します。最大規模の公開口唇読み取りベンチマーク LRS3(433時間)において、AV-HuBERTはラベル付きデータ30時間のみで32.5%のWERを達成し、1000倍以上の転写ビデオデータ(31K時間)を使用して訓練された従来の最先端手法(33.6%)を上回りました。LRS3の全433時間のラベル付きデータを使用し、自己訓練と組み合わせることで、口唇読み取りのWERはさらに26.9%に低下しました。同じベンチマークで音声のみの音声認識に当社の音声視覚表現を使用すると、最先端性能に対して相対的に40%のWER削減(1.3% 対 2.3%)が達成されました。当社のコードおよびモデルは、以下のURLから入手可能です。https://github.com/facebookresearch/av_hubert