15日前

M2D-CLAP：マスクドモデリング・デュオがCLAPと融合し、汎用音声-言語表現を学習する

Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto

要約

対照的言語・音声事前学習（CLAP）は、音声に対するゼロショット（ZS）推論を可能にし、いくつかの分類タスクにおいて有望な性能を示している。しかし、ZSが適用できない多くのタスク（例えば回帰問題など）において、従来の音声表現は依然として不可欠である。本研究では、ゼロショット推論と転移学習の両方において優れた性能を発揮する、汎用的な音声・言語表現の可能性を検討する。そのため、自己教師学習に基づくマスクモデル二重化（Masked Modeling Duo, M2D）とCLAPを統合する新たな手法M2D-CLAPを提案する。M2Dは音声信号を効果的に表現する能力を学習し、CLAPはその表現をテキスト埋め込みと整合させる。その結果、M2D-CLAPはゼロショット推論と転移学習の両方に適した汎用的な表現を学習することができる。実験の結果、M2D-CLAPは線形評価、ファインチューニング、ゼロショット分類において優れた性能を発揮し、GTZANデータセットにおいて75.17%の最先端（SOTA）精度を達成した。これにより、汎用的な音声・言語表現の実現が示された。