15日前

マルチフォーマット対照学習による音声表現

Luyu Wang, Aaron van den Oord
マルチフォーマット対照学習による音声表現
要約

最近の進展により、単一モーダル手法と比較してマルチモーダル学習の優位性が示唆されている。しかし本研究では、その見解とは対照的に、同一モーダルの異なる形式を用いた学習によっても、類似の性能向上が達成可能であることを発見した。特に、原始音声とそのスペクトル表現の間の整合性を最大化するように学習する対照学習フレームワークを用いて、音声表現を学習する手法を検討した。その結果、単一形式の手法と比較して、本マルチフォーマット戦略により顕著な性能向上が得られた。さらに、下流タスクであるAudioSetおよびESC-50分類において、音声のみを用いたアプローチが、平均平均精度(mAP)0.376、精度90.5%という新たな最先端の結果を達成した。

マルチフォーマット対照学習による音声表現 | 最新論文 | HyperAI超神経