节日福利 | 6 个圣诞相关的高质量数据集+算力

又是一年一度的平安夜 + 圣诞节,除了苹果和圣诞树,还有什么新鲜花样吗?为了让 21 世纪 20 年代的最后一个圣诞节有所不同,超神经今天特地给大家带来了多个圣诞节相关数据集,还搭配免费算力福利,快来领取吧!

对于西方人来说,就像春节对于中国人一样重要,在这天必定要举家欢庆。据 BBC 报道,英国人通常从圣诞到来前一个多月就开始准备了,在此期间还会举行圣诞点灯仪式(Lighting Ceremony),大街小巷都弥漫着浓重的节日气氛。而因为圣诞节的购物、送礼物、聚餐等各种狂欢,也产生了各种相关的数据。

于是,超神经也应个景,特地整理了圣诞节相关数据集特辑以及免费算力,作为圣诞礼物送给大家,收好不谢哦!

从这些圣诞节相关的数据集里,我们也能体会到浓浓的圣诞节气氛,与此同时,学习娱乐两不误。

在文末获取邀请码,注册成功后,就可领取双重福利大礼包哦!

六个高质量圣诞数据集,你值得拥有 

●  抓取 Billboard 393 首热门圣诞歌曲 ●

一句话简介:盘点近 60 年来最受欢迎的 393 首圣诞歌曲。

详情:本数据集收集了自 1958 年至 2017 年间,Billboard 最受欢迎的 393 首圣诞歌曲,全部歌曲均在各年「最受欢迎圣诞歌曲前 100 榜单」中出现过,其中数首歌曲多次上榜,「Jingle bell rock」曾上榜 28 次,「All i want for Christmas is you」上榜 20 次。 

该数据集通过合并两个数据源创建,分别为 Billboard 1958-2017 年前 100  以及 Wikipedia 最受欢迎的圣诞歌曲列表。

关联场景:《周董下次发新歌,可以请 AI 来作词吗?》

研究方向:机器作词、风格学习等序列建模(seq2seq)的典型应用

● 1600 个经典圣诞节菜谱 ●

一句话简介:美食不能错过,这里有 1600 个圣诞菜谱待解锁。详情:该数据集包括源自 BBC Good Food 的 1600 个圣诞菜谱,涵盖相关菜谱的名称、叙述、作者、食材、烹饪步骤等详细信息。文件格式为 JSON,便于用户更好地了解圣诞节烹饪的常见菜品,并进行 NLP 相关训练。

关联场景:《人工智能进军餐饮:AI 调酒,越喝越有》

研究方向:食物搭配模型、食品加工等,可应用孪生神经网络(Siamese Neural Networks)

● 5 万条圣诞期间的 Twitter 文本 ●

一句话简介:平安夜和圣诞节,大家都爱发点啥推文?

详情:发布者通过爬虫获取了平安夜和圣诞节当天,共计 5 万条推文的元数据,第一个字段为发布者 ID,第二个字段为 HTML 元数据。建议借助 BeautifulSoup  或其他库来解析此数据,并从每条推文中提取有效信息。其中推文中关于 emoji 的使用,可以促进圣诞期间活跃用户的进一步研究。

关联场景:《社交媒体的神操作:如何在互联网上删去一段历史?》

研究方向:文本分析研究、文本情绪判断

● 100 万个孩子的圣诞礼物愿望清单 ●

一句话简介:那些期待圣诞节的孩子们,和他们期待的礼物。

详情:该数据集包括两部分:100 万名孩子的圣诞礼物愿望清单(每个孩子包含 100 个愿望礼物),还包含 1000 件礼物的清单,以及圣诞老人希望分发礼物的 1000 个好孩子名单的清单。

该数据集来源于某线上比赛,其初衷是让用户可以借此数据集构建一种玩具匹配算法,通过将孩子与所需的玩具配对,分别提高孩子及圣诞老人的幸福感。

关联场景:《母亲节倒计时,选礼物救急指南》

研究方向:用户推荐系统

●  美国节日期间糖果月产量数据集 ●

一句话简介:1972 年以来糖果的月产量,圣诞节发糖会增多吗?

详情:该数据集包括 1972 年 1 月至 2017 年 8 月期间,美国每个月的糖果产量,其中涉及到万圣节、圣诞节、新年等重要节日,也包括短暂减肥期造成的糖果产量走低。

用户可以借助该数据集,追踪工业生产指数相关变化、糖果产量的季节性变化,以及产量预测。

●  节日期间零售商店销量预测 ●

一句话简介:在诸如圣诞节等活动期间,商店的销售数据详情:该数据集包括 2010-02-05 到 2012-11-01 期间,位于不同地区的 45 家商店的历史销售数据,以及店铺的编号、类型及规模。

全年涉及四大促销时段,包括超级碗、劳动节、感恩节和圣诞节。用户可借助该数据集对零售数据建模,预测未来销量并了解战略决策对盈亏的影响。

关联场景:《618 购物狂欢 | 揭秘亚马逊和淘宝:如何打造算法成为最佳导购》

研究方向:商品销售预测、用户推荐

圣诞免费算力:按需配置,开箱即用 

值此佳节,超神经将为大家送上一份朴素而真诚的礼物,我们力争让数据科学工程师花最少的钱,用最多、最优质的算力!

本次要介绍的合作伙伴 OpenBayes ,一个针对机器学习提供云端算力的云服务。他们拥有大规模的超算集群,GPU 集群架构专针对矩阵计算设计,面向 AI 应用提供算力容器,而且上手非常简单,开箱即用。

目前 OpenBayes 的算力容器产品已经支持 TensorFlow、PyTorch、MXNet 等 CPU 和 GPU 环境下,不同版本、类型的标准机器学习框架和各种常用依赖。

目前 OpenBayes 算力容器支持的标准库

并提供 CPU、NVIDIA T4、NVIDIA Tesla V100 等多种算力资源,无论是海量数据的集中训练,还是低功耗的模型常驻运行,都能轻松满足用户需求。

从 CPU 到 T4 再到 V100, 丰富的算力容器配置

OpenBayes 支持脚本上传和 JupyterLab 编辑器在线编程,然后进行模型训练。

清晰简洁的执行过程

完整教程:https://openbayes.com/docs/quickstart/

从小白到大神:友好度 +999

以 MNIST  模型为例,OpenBayes 算力容器可以一站式解决数据集绑定模型训练以及模型使用等问题。

在「新建容器」的绑定数据处输入 MNIST 可以搜索到对应数据集,点击选中,MNIST 数据集将会被绑定到「算力容器」的 /input0 目录下。

绑定数百个公开数据集数据集

然后选择相应的算力容器:

OpenBayes 为用户提供了丰富的算力容器选项

选择镜像(支持主流运行环境和各种常用依赖),确定接入方式(可以上传 Python 脚本或在 Jupyter Lab 中运行)。

提交任务后等待 1 – 2 分钟任务开始执行。任务开启的时间通常与所绑定数据集大小有关,所需数据集越大,容器执行准备时间越长。这样就完成了模型训练的过程。

在容器页面可以看到日志所展示的执行情况

完整教程:https://openbayes.com/docs/tutorial-mnist/

目前 OpenBayes 容器在创建 Task 或 Jupyter Notebook 时都已经支持了 TensorBoard

可以用 TensorBoard 来展现 TensorFlow 图,绘制图像生成的定量指标图以及显示附加数据(如其中传递的图像)。

注册新用户,即可享受 GPU 算力!

访问 openbayes.com,在官网首页点击立即注册,而且内测期间周周有赠哦,再也不用跟同学、同事抢算力了~ 

活动说明  访问 openbayes.com  凭邀请码【HyperAI】  注册新用户即可享受
每周 600min 的 CPU + 300min NVIDIA T4  的免费算力~

所有圣诞节数据集,已经发布至平台公开数据集中~

抱歉,暂无相关内容推荐。