9日前

ES3:ロバストな音声視覚音声表現の進化的自己教師学習

{Xilin Chen, Shiguang Shan, Shuang Yang, Yuanhang Zhang}
ES3:ロバストな音声視覚音声表現の進化的自己教師学習
要約

我々は、ラベルなしの会話映像(talking face videos)から堅牢な音声・視覚連携音声表現を自己教師学習によって学習するための新規戦略ES3を提案する。近年の多くのアプローチは、音声と映像の共有情報を捉えるために音声モダリティのみを用いて学習プロセスを導くが、本研究では、音声・視覚間の固有の非対称性に着目し、共通情報(shared)、モダリティ固有情報(unique)、およびシナジー情報(synergistic)の獲得という新たな視点から問題を再定式化する。この定式化に基づき、段階的に強固な単モダリティ(音声・視覚)および双モダリティ(音声・視覚連携)音声表現を構築する「進化的(evolving)」な戦略を提案する。まず、学習が比較的容易な音声モダリティを用いて、音声固有情報と共有音声情報を捉えることで、音声および視覚表現を初期化する。次に、視覚固有の音声情報を導入し、これまでに得られた共有知識を基盤として音声・視覚連携表現をブートストラップ(自己強化)する。最後に、シナジー情報を含む音声・視覚連携音声情報の総量を最大化することで、堅牢かつ包括的な表現を得る。ES3はシンプルなシアメス(Siamese)フレームワークとして実装され、英語ベンチマークおよび新たに提供された大規模な中国語(北京語)データセットを用いた実験により、その有効性が検証された。特にLRS2-BBCデータセットにおいて、最小のモデルでも、パラメータ数が従来の最先端(SoTA)モデルの半分、ラベルなしデータ量が8分の1(223時間)の条件下で、同等の性能を達成した。