HyperAIHyperAI

Command Palette

Search for a command to run...

統一された音声認識:聴覚、視覚、および聴覚視覚入力の単一モデル

Alexandros Haliassos Rodrigo Mira Honglie Chen Zoe Landgraf Stavros Petridis Maja Pantic

概要

聴覚、視覚、および音声視覚的な音声認識(それぞれ ASR、VSR、AVSR)に関する研究は従来、独立して行われてきた。最近の自己監督学習の研究でも、これらの2つまたは全てのタスクを同時に扱う場合でも、しばしば個別のモデルが生成され、推論パイプラインが分断され、メモリ要件が増加し冗長性が生じる傾向がある。本論文では、これらのシステムに対する統合された学習戦略を提案する。単一のモデルで3つのタスク全てを学習することで、VSR と AVSR の性能が向上し、ゼロから学習する際の典型的な最適化課題を克服できることを示す。さらに、ラベルなしサンプルをより効果的に活用するための貪欲疑似ラベリング手法を導入し、関連する自己監督方法における欠点に対処する。最後に、我々のフレームワーク内で自己監督事前学習手法を開発し、その有効性を半教師ありアプローチとともに証明した。すべてのタスクに対して単一のモデルを使用しているにもかかわらず、我々の統合アプローチは LRS3 および LRS2 の ASR, VSR, AVSR において最新手法と比較して最先端の性能を達成しており、新しく公開された WildVSR データセットでも同様である。コードとモデルは https://github.com/ahaliassos/usr で利用可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています