每周编辑精选|CCMusic 音乐数据集上线、揭秘英伟达自研大模型 ChipNeMo

1 年前

资讯

Yudi

特色图像

为了使 AI 在音乐训练方面更高效,CCMusic 开源了一些音乐、音频数据集供计算音乐学研究者免费使用,现已在 hyper.ai 上线。此外,hyper.ai 还更新了米哈游、网易云等相关音乐数据集,一起来看看吧!

1 月 22 日-1 月 26 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 条

* AI4S 论文案例:2 篇

* 热门百科词条:10 条

访问官网:hyper.ai

公开数据集精选

1CCMUSIC 真假声数据集

该数据集包含 1280 个胸声和假声的单音歌唱音频(.wav 格式),胸声标记为胸声,假声标记为假声。

直接使用:

https://hyper.ai/datasets/29125

2. CCMUSIC 钢琴音质数据集

该数据集包含中国音乐学院琴房中 7 种钢琴(川井立式钢琴、川井三角钢琴、永昌立式钢琴、星海立式钢琴、施坦威大剧院三角钢琴、施坦威三角钢琴和珠江立式钢琴)的 12 个 gamut audio 文件(.wav / .mp3 / .m4a 格式)和 1320 个分割单音音频文件(.wav / .mp3 / .m4a 格式),共计 1332 个文件。此外,还有一份钢琴音质主观评价调查问卷(.xls 格式),包括 29 位参与钢琴音质主观评价者的评分。

直接使用:

https://hyper.ai/datasets/29097

3. CCMUSIC 音乐流派数据集

该数据集包含约 1700 首音乐作品(.mp3 格式),长度为 270-300 秒,总共分为 17 个流派。由于原始音乐的版权问题,数据集中仅提供频谱图。

直接使用:

https://hyper.ai/datasets/29094

4. CCMUSIC 美声民族唱法数据集

本数据集包含数百个由专业歌唱家演唱的无伴奏合唱片段,有两种风格:Bel Conto 和中国民族唱法。所有片段均由专业歌唱家演唱,并在专业商业录音室录制。

直接使用:

https://hyper.ai/datasets/29086

5. 网易云音乐情感分类数据集

该数据集包含约 395,000 条音乐情感标签数据,其中每条数据由歌曲 ID 、歌单 ID 和歌曲的情感标签三个主要列组成。这些数据的来源是网易云音乐官方网站,提供了对歌曲情感进行标记的详尽信息。由于数据集规模较大,适用于构建情感分析模型、进行数据挖掘,并深入理解音乐与情感之间的关联。

直接使用:

https://hyper.ai/datasets/29133

6. miHoYo Music Remix Piano Dataset 米哈游音乐二创钢琴数据集

该数据集主要包含 miHoYo  旗下两款游戏「Genshin Impact」和「Honkai: Star Rail」的钢琴乐曲片段。这些钢琴片段已转换为 ABC 乐谱。研究人员可以利用该资源深入分析音符、旋律结构等音乐特征,为音乐生成算法的训练和增强提供实质性的数据支持。

直接使用:

https://hyper.ai/datasets/29150

7. FMA 音乐分析数据集

FMA 是音乐分析数据集,由整首 HQ 音频、预计算的特征、以及音轨和用户级元数据组成,可用于评估 MIR (Music Information Retrieva) 中的多项任务。

直接使用:

https://hyper.ai/datasets/29162

8. High-Throughput Algae Cell Detection 藻类细胞检测数据集

该数据集来自 2023 IEEE 网络信息学大会「Vision Meets Algae」物体检测挑战赛,包括训练集和测试集。训练集包含 700 张图像,测试集包含 300 张图像,分为 6 个类别。训练集的标注采用 YOLO 格式,每个图像都有一个相应的 .txt 格式的注释文件。

直接使用:

https://hyper.ai/datasets/29158

9. MathVista 数学推理数据集

MathVista 是视觉环境中的综合数学推理基准。它由三个新创建的数据集 IQTest 、 FunctionQA 和 PaperQA 组成,它们分别用于评估拼图测试图的逻辑推理、功能图的代数推理以及学术论文图的科学推理。 MathVista 总共包含从 31 个不同数据集收集的 6,141 个示例。

直接使用:

https://hyper.ai/datasets/29122

10. Animals 10 种动物图像数据集

该数据集包含约 28K 个中等质量的动物图像,属于 10 个类别:狗、猫、马、蜘蛛、蝴蝶、鸡、羊、牛、松鼠、大象。可用于测试不同的图像识别网络。

直接使用:

https://hyper.ai/datasets/29079

ScienceAI  论文案例精选

1. AI 赋能绿色制冷,香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

香港岭南大学和香港城市大学研究人员在「建造机电设施的全球人工智能挑战」中,提出了一种新型动态工程化多模态特征学习 (DEMMFL) 模型,它可以准确预测建筑冷负荷,助力节能。相关论文已发表于「Applied Energy」期刊。

查看完整报道:

https://hyper.ai/news/29108

2.  自己卷自己?英伟达发布大模型 ChipNeMo,专为芯片设计定制

英伟达发布了一个以自家内部数据为基础训练而成的定制大语言模型——ChipNeMo,可以帮助工程师完成与芯片设计相关的任务。本文是对 ChipNeMo 的详细介绍。

查看完整报道:

https://hyper.ai/news/29134

热门百科词条精选

1.  核范数 Nuclear Norm

2.  配对 t 检验 Paired t-Test

3. 分布式计算 Distributed Computing

4. 混合专家模型 Mixture of Experts (MoE)

5. 检索增强生成 Retrieval-Augmented Generation (RAG)

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:https://hyper.ai/wiki

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:https://hyper.ai/