19日前
EnCLAP:ニューラル音声コーデックと音声-テキスト共同埋め込みを統合した自動音声キャプション生成
Jaeyeon Kim, Jaeyoon Jung, Jinjoo Lee, Sang Hoon Woo

要約
我々は、自動音声キャプション生成のための新規フレームワーク「EnCLAP」を提案する。EnCLAPは、EnCodecおよびCLAPの2つの音響表現モデルと、事前学習された言語モデルであるBARTを用いる。さらに、事前学習された言語モデルの音響認識能力を向上させるために、新たな学習目的である「マスク付きコーデックモデリング(masked codec modeling)」を導入する。AudioCapsおよびClothoにおける実験結果から、本モデルがベースラインモデルを上回る性能を発揮することが示された。ソースコードは https://github.com/jaeyeonkim99/EnCLAP にて公開される。オンラインデモは https://huggingface.co/spaces/enclap-team/enclap で利用可能である。