HyperAI

概要

我々は、自動音声キャプション生成のための新規フレームワーク「EnCLAP」を提案する。EnCLAPは、EnCodecおよびCLAPの2つの音響表現モデルと、事前学習された言語モデルであるBARTを用いる。さらに、事前学習された言語モデルの音響認識能力を向上させるために、新たな学習目的である「マスク付きコーデックモデリング（masked codec modeling）」を導入する。AudioCapsおよびClothoにおける実験結果から、本モデルがベースラインモデルを上回る性能を発揮することが示された。ソースコードは https://github.com/jaeyeonkim99/EnCLAP にて公開される。オンラインデモは https://huggingface.co/spaces/enclap-team/enclap で利用可能である。

概要

Jaeyeon Kim Jaeyoon Jung Jinjoo Lee Sang Hoon Woo

概要

AIでAIを構築

HyperAI Newsletters

Jaeyeon Kim Jaeyoon Jung Jinjoo Lee Sang Hoon Woo

概要

AIでAIを構築

HyperAI Newsletters

Jaeyeon Kim Jaeyoon Jung Jinjoo Lee Sang Hoon Woo

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

EnCLAP：ニューラル音声コーデックと音声-テキスト共同埋め込みを統合した自動音声キャプション生成

Jaeyeon Kim Jaeyoon Jung Jinjoo Lee Sang Hoon Woo

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

EnCLAP：ニューラル音声コーデックと音声-テキスト共同埋め込みを統合した自動音声キャプション生成

Jaeyeon Kim Jaeyoon Jung Jinjoo Lee Sang Hoon Woo

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

EnCLAP：ニューラル音声コーデックと音声-テキスト共同埋め込みを統合した自動音声キャプション生成

Jaeyeon Kim Jaeyoon Jung Jinjoo Lee Sang Hoon Woo

概要

AIでAIを構築

HyperAI Newsletters