HyperAIHyperAI

Command Palette

Search for a command to run...

M2D-CLAP:マスクドモデリング・デュオがCLAPと融合し、汎用音声-言語表現を学習する

Daisuke Niizumi Daiki Takeuchi Yasunori Ohishi Noboru Harada Masahiro Yasuda Shunsuke Tsubaki Keisuke Imoto

概要

対照的言語・音声事前学習(CLAP)は、音声に対するゼロショット(ZS)推論を可能にし、いくつかの分類タスクにおいて有望な性能を示している。しかし、ZSが適用できない多くのタスク(例えば回帰問題など)において、従来の音声表現は依然として不可欠である。本研究では、ゼロショット推論と転移学習の両方において優れた性能を発揮する、汎用的な音声・言語表現の可能性を検討する。そのため、自己教師学習に基づくマスクモデル二重化(Masked Modeling Duo, M2D)とCLAPを統合する新たな手法M2D-CLAPを提案する。M2Dは音声信号を効果的に表現する能力を学習し、CLAPはその表現をテキスト埋め込みと整合させる。その結果、M2D-CLAPはゼロショット推論と転移学習の両方に適した汎用的な表現を学習することができる。実験の結果、M2D-CLAPは線形評価、ファインチューニング、ゼロショット分類において優れた性能を発揮し、GTZANデータセットにおいて75.17%の最先端(SOTA)精度を達成した。これにより、汎用的な音声・言語表現の実現が示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています