HyperAI

Zero-shot Audio Captioning旨在无需预先针对此任务进行训练的情况下，自动生成描述性文本以捕捉音频内容的特征。该技术专注于环境声音及人类行为产生的声音，通过即时理解音频信息，提供准确的文字描述，具有广泛的应用价值，如辅助听障人士理解音频信息、提升多媒体内容的可访问性和智能化处理等。

AudioCaps

Clotho

Command Palette

零样本音频字幕生成

Command Palette

零样本音频字幕生成

Command Palette

零样本音频字幕生成