ReVISE: 視覚入力を用いた自己監督型音声再合成による普遍的かつ汎用的な音声強化

これまでの視覚入力を用いた音声品質向上に関する研究は、通常、各種の聴覚的な歪み(例えば、分離、補完、ビデオから音声への変換)を個別に検討し、それぞれに特化したアルゴリズムを提示してきました。本論文ではこれらの主題を統一し、一般化された音声強化(Generalized Speech Enhancement)について研究することを提案します。この研究の目的は、完全な参照クリーン信号の再構築ではなく、音声の特定の側面を改善することに焦点を当てることです。特に、本論文では理解性、品質、およびビデオ同期に注目しています。問題は音響-視覚的な音声再合成として定式化され、これは2つのステップで構成されています:擬似音響-視覚的音声認識(Pseudo Audio-Visual Speech Recognition, P-AVSR)と擬似テキストから音声への合成(Pseudo Text-to-Speech Synthesis, P-TTS)。P-AVSRとP-TTSは、自己監督型音声モデルから導出される離散ユニットによって接続されます。さらに、我々は自己監督型音響-視覚的音声モデルを使用してP-AVSRの初期化を行います。提案されたモデルはReVISEと名付けられました。ReVISEは野生環境でのビデオから音声への合成用の最初の高品質モデルであり、単一のモデルでLRS3のすべての音響-視覚的強化タスクにおいて優れた性能を達成しています。その実世界での適用可能性を示すために、ReVISEは困難な聴覚条件下で収集された1.6時間分のみの訓練データを持つEasyComという音響-視覚的ベンチマークでも評価されました。同様に、ReVISEはノイズを大幅に抑制し、品質を向上させています。プロジェクトページ: https://wnhsu.github.io/ReVISE.