2ヶ月前
統一された音声認識:聴覚、視覚、および聴覚視覚入力の単一モデル
Haliassos, Alexandros ; Mira, Rodrigo ; Chen, Honglie ; Landgraf, Zoe ; Petridis, Stavros ; Pantic, Maja

要約
聴覚、視覚、および音声視覚的な音声認識(それぞれ ASR、VSR、AVSR)に関する研究は従来、独立して行われてきた。最近の自己監督学習の研究でも、これらの2つまたは全てのタスクを同時に扱う場合でも、しばしば個別のモデルが生成され、推論パイプラインが分断され、メモリ要件が増加し冗長性が生じる傾向がある。本論文では、これらのシステムに対する統合された学習戦略を提案する。単一のモデルで3つのタスク全てを学習することで、VSR と AVSR の性能が向上し、ゼロから学習する際の典型的な最適化課題を克服できることを示す。さらに、ラベルなしサンプルをより効果的に活用するための貪欲疑似ラベリング手法を導入し、関連する自己監督方法における欠点に対処する。最後に、我々のフレームワーク内で自己監督事前学習手法を開発し、その有効性を半教師ありアプローチとともに証明した。すべてのタスクに対して単一のモデルを使用しているにもかかわらず、我々の統合アプローチは LRS3 および LRS2 の ASR, VSR, AVSR において最新手法と比較して最先端の性能を達成しており、新しく公開された WildVSR データセットでも同様である。コードとモデルは https://github.com/ahaliassos/usr で利用可能である。