HyperAIHyperAI

Command Palette

Search for a command to run...

EnCLAP:ニューラル音声コーデックと音声-テキスト共同埋め込みを統合した自動音声キャプション生成

Jaeyeon Kim Jaeyoon Jung Jinjoo Lee Sang Hoon Woo

概要

我々は、自動音声キャプション生成のための新規フレームワーク「EnCLAP」を提案する。EnCLAPは、EnCodecおよびCLAPの2つの音響表現モデルと、事前学習された言語モデルであるBARTを用いる。さらに、事前学習された言語モデルの音響認識能力を向上させるために、新たな学習目的である「マスク付きコーデックモデリング(masked codec modeling)」を導入する。AudioCapsおよびClothoにおける実験結果から、本モデルがベースラインモデルを上回る性能を発揮することが示された。ソースコードは https://github.com/jaeyeonkim99/EnCLAP にて公開される。オンラインデモは https://huggingface.co/spaces/enclap-team/enclap で利用可能である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています