Clotho 是一个 audio captioning 数据集。该数据集侧重于音频的内容,以及字幕的多样性,由 4,981 个音频样本组成,每个音频样本有 5 个字幕(总共 24,905 个字幕),持续时间为 15 到 30 秒,字幕长度为 8 到 20 个单词。
Clotho 是一个 audio captioning 数据集。该数据集侧重于音频的内容,以及字幕的多样性,由 4,981 个音频样本组成,每个音频样本有 5 个字幕(总共 24,905 个字幕),持续时间为 15 到 30 秒,字幕长度为 8 到 20 个单词。