MusicPile 是由 Multimodal Art Projection Research Community 、 Skywork AI 和香港科技大学联合推出的一个大型音乐-语言预训练数据集。该数据集包含 517 万个样本,约 41.6 亿 Token,来源包括网络语料库、百科全书、音乐书籍、 YouTube 音乐字幕、 ABC 记谱法作品、数学内容与代码。数据集包含 id 、 text 和 src 三个字段,每段文本 Token 不超过 2,048 个。 MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。
做种 2
下载中 1
已完成 54
总下载 182