不论是出门游玩,还是宅家修养,电影与音乐总是以各种各样的形式陪伴在我们身边,甚至已经成为了调剂生活的一味「佐料」。
每年的国庆档,电影院都会迎来一波观影高峰。据报道,去年国庆档的电影市场总票房累计 27.34 亿,超 2022 年同期 83%,总观影人次超 6511.4 万。
与此同时,中国演出行业协会统计数据指出,在 2023 年 9 月 29 日至 10 月 6 日期间,全国营业性演出(不含娱乐场所演出)共计 4.42 万场,其中大型演唱会、音乐节演出场次 121 场,票房收入 5.41 亿元,观演人次 83.66 万人。
可见电影、音乐在大家生活中的分量之大!在此,HyperAI 超神经为大家汇总了电影、音乐相关的数据集,包括电影/音乐推荐、电影评价预测、歌词识别等各个方面,大家可以按需下载,让你的假期更精彩。
点击查看更多开源数据集:
扫码备注「数据集」加入讨论群↓
电影数据集汇总
发布平台:Kaggle
预估大小:8.89 MB
下载地址:https://go.hyper.ai/2uTxh
该数据集收录了来自 TMDB 的 5 千部电影数据集,包括电影的情节、演员、工作人员、预算和收入,适用于电影推荐系统、电影市场分析等多种应用场景。
发布平台:Kaggle
发布时间:2024 年
预估大小:199.09 MB
下载地址:https://go.hyper.ai/4uTYb
TMDB 是一个综合性的电影数据库,包含来自 TMDB 数据库的 100 万部电影的集合,提供有关电影的信息,包括标题、评级、发行日期、收入、类型等细节。
发布机构:斯坦福大学
发布时间:2011 年
预估大小:80.23 MB
下载地址:https://go.hyper.ai/CdpFg
AclImdb – v1 Dataset 是用于二进制情绪分类的大型电影评论数据集,其中有 25,000 条电影评论用于训练,25,000 条用于测试,还有其他未经标记的数据可供使用。
发布平台:Netflix Prize
预估大小:665.24 MB
下载地址:https://go.hyper.ai/nWG97
Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据,评价数超过 100 万条,数据采集的时间段为 1998 年 10 月到 2005 年 11 月,其中评分以 5 分制为基准,并且用户信息已经经过脱敏处理。
5 、 MovieLens 电影推荐数据集
发布机构:美国明尼苏达大学 GroupLens 研究团队
发布时间:2018 年
下载地址:https://go.hyper.ai/RFNqY
该数据集可用于电影推荐系统的研究和开发,数据集有多个版本,包括但不限于 MovieLens 100K 、 MovieLens 1M 、 MovieLens 10M 、 MovieLens 20M 等,广泛应用于机器学习、数据挖掘和个性化推荐系统的研究中。
发布机构:斯坦福大学
发布时间:2011 年
预估大小:137.77 MB
下载地址:https://go.hyper.ai/n247h
该数据集适用于情感二元分类的数据集,旨在作为情绪分类的基准,其中包含有 5 万条经过标记、两极分化明显的电影评论,还有 5 万条未经标记的数据可供使用。
发布机构:麻省理工大学
发布时间:2018 年
预估大小:29.55 MB
下载地址:https://go.hyper.ai/CnrF2
Wikipedia Movie Plots 数据集包含 34,886 部世界各地的电影。每部电影包括发行年份、标题、电影的民族性、导演、主演、剧情介绍等。该数据集可被用于多类问题处理如预测电影类型和推荐相关电影等。
发布机构:香港中文大学
发布时间:2020 年
预估大小:263.58 GB
下载地址:https://go.hyper.ai/tfoDz
MovieNet 是一个用于电影理解的数据集,包含 1,100 部电影,其中具有大量多模态数据,例如预告片、照片、情节描述等。此外,MovieNet 中提供了不同方面的手动标注。
发布平台:Kaggle
预估大小:227.8 MB
下载地址:https://go.hyper.ai/s5DFC
该数据集包含了完整 MovieLens 数据集中 45,000 部电影的详尽元数据。这个数据集不仅涵盖了电影的基本资料,还包括了上映日期、语言等详细信息。此外,它还包含了 26 百万条来自 270,000 名用户的评分,这些评分为 1 至 5 分,为研究电影受欢迎程度提供了宝贵的数据。
音乐数据集汇总
发布机构:马德里自治大学信息检索小组
发布时间:2011 年
预估大小:2.47 MB
下载地址:https://go.hyper.ai/Ig3WD
该数据集包含 2 千个用户与 Last.fm 音乐平台的交互数据,包括用户的好友关系、标签、音乐艺术家以及这些艺术家的标签信息。帮助科研人员研究如何利用社交网络数据、用户标签以及其他信息来改进推荐算法。
发布机构:Owen Lab 、 The University of Western Ontario
发布时间:2016 年
预估大小:5.88 GB
下载地址:https://go.hyper.ai/0qG3t
OpenMIIR 是基于音乐感知和想象中拍摄的脑电图 (EEG) 录音的公共领域数据集。它包含参与者在聆听 12 首音乐片段时的 EEG 数据,以及相应的音乐刺激,主要用于分析音乐聆听过程中脑电波的变化。
3 、网易云音乐情感分类数据集
发布平台:Huggingface
预估大小:4.05 MB
下载地址:https://go.hyper.ai/OKA4L
网易云音乐情感分类数据集包含约 395,000 条音乐情感标签数据,其中每条数据由歌曲 ID 、歌单 ID 和歌曲的情感标签三个主要列组成,适用于构建情感分析模型、进行数据挖掘,并深入理解音乐与情感之间的关联。
4 、 MusicNet 音乐数据集
发布机构:华盛顿大学
发布时间:2017 年
预估大小:10.34 GB
下载地址:https://go.hyper.ai/ZPuMa
MusicNet 是一个大型音乐数据集,用以监督和评估音乐研究的机器学习方法。该数据集由 330 张版权免费的古典音乐唱片以及超 100 万个注释标签组成,并由音乐家评估验证,得出标签的错误率仅为 4% 。
发布机构:美国电气和电子工程师协会
预估大小:11.27 GB
下载地址:https://go.hyper.ai/0sjUP
URMP 是一个用于音乐表演视听分析的数据集。该数据集包括 44 首简单的多乐器音乐作品,由单个曲目单独录制的表演成。对于每首作品,数据集都提供了 MIDI 格式的乐谱、高质量的单个乐器录音和合成作品的视频。
6 、 CCMUSIC 音乐流派数据集
发布机构:中国科学院自动化研究所
发布时间:2017 年
预估大小:16.93 GB
下载地址:https://go.hyper.ai/mBXI6
该数据库包含约 1,700 首 (mp3 格式) 来源于网易云音乐的音乐作品。这些音乐的时长在 270 到 300 秒之间,共分为 16 个流派。
7 、 Music21 音乐视频数据集
发布机构:麻省理工大学
发布时间:2009 年
预估大小:42.29 MB
下载地址:https://go.hyper.ai/U4qDT
Music21 是一个未经修剪的视频数据集,通过关键字从 YouTube 爬取。它包含 21 个类别的音乐表演,数据质量较高,可用于训练和评估视觉声源分离模型。
8 、 MusicPile 大型音乐数据集
发布平台:Huggingface
发布时间:2023 年
预估大小:6.33 GB
下载地址:https://go.hyper.ai/tuVEy
该数据集包含 517 万个样本,约 41.6 亿 Token,数据集包含 id 、 text 和 src 三个字段,每段文本 Token 不超过 2,048 个。 MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。
9 、史上最佳 5 千张专辑数据集
发布平台:Kaggle
发布时间:2021 年
预估大小:302 KB
下载地址:https://go.hyper.ai/SGAHV
该数据集包含了由 http://rateyourmusic.com 用户决定的 5 千张最佳专辑,其中包括排名、专辑名称、艺术家姓名、发行日期、流派、描述符、平均评分、评分数和评论数。
以上就是 HyperAI 超神经为大家汇总的电影、音乐数据集,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!扫码备注「数据集」加入讨论群↓
关于 HyperAI 超神经 (hyper.ai)
HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:
* 为 1200+ 公开数据集提供国内加速下载节点
* 收录 300+ 经典及流行在线教程
* 解读 100+ AI4Science 论文案例
* 支持 500+ 相关词条查询
* 托管国内首个完整的 Apache TVM 中文文档
访问官网开启学习之旅: