每周编辑精选|在线运行 Deepmoney 金融大模型、 AI 偏好等多个优质数据集上线

特色图像

目前,AI 领域对金融模型的研究成果大多是基于公共知识进行训练的,但在实际的金融实践中,这些公共知识对于当前市场的可解释性往往严重不足。一个理想的金融大模型应该能够理解新闻或数据事件,并能够即时地从主观和量化两个角度对事件进行评估。
Deepmoney 便是为此而生的,它是一个专注于金融领域投资的大型语言模型项目。 hyper.ai 官网现已提供在线运行教程,快来体验一下吧!

3 月 18 日-3 月 22 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

*  优质教程精选:3 个

* 社区文章精选:3 篇

* 热门百科词条:10 条

访问官网:hyper.ai

公共数据集精选

1. OpenHermesPreferences:AI 偏好数据集 OpenHermesPreferences 数据集是由 Argilla 与 Hugging Face H4 团队协作创建的,包含约 100 万条 AI 偏好数据。该数据集可用于训练偏好模型或通过直接偏好优化等技术对齐语言模型。

直接使用:

https://my5353.com/30168

2. LongAlign 10K 大模型长上下文对齐数据集

LongAlign-10k 是清华大学提出的一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。该数据集旨在测评大模型于长上下文中的表现,及其对 10k-100k 长度任务指令的遵循能力。

直接使用:

https://my5353.com/30247

3. CyberMetric 大模型网络安全评测数据集

CyberMetric 数据集包含 10,000 个问题,旨在综合评估大模型的网络安全知识。该数据集采用不同大模型创建,并由网络安全领域的专家进行了验证,以确保其相关性和准确性。

直接使用:

https://my5353.com/30251

4. 2020 年中国地面光伏电站 10 米全国比例尺地图数据集

中国农业大学与中国科学院地理科学与资源研究所合作,针对国内缺乏高分辨率、开源的全国地面光伏电站分布数据现状,开发了一套全国性的制图方法,成功发布了 2020 年全国 10 米分辨率地面光伏电站分类数据集。该成果不仅精确揭示了我国光伏电站的空间分布特征,而且以 89% 的分类精度,为能源规划、土地利用、遥感监测及环境研究等领域提供了宝贵的数据资源。此举填补了国内该领域数据的空白,对相关研究具有重要意义。

直接使用:

https://my5353.com/30283

5. Crop Diseases Classification 农作物病害分类图像数据集

该数据集是 5 种农作物病害的分类图像,这些图像已被分别标记为:木薯细菌性枯萎病 (CBB) 、木薯褐条病 (CBSD) 、木薯绿斑驳病 (CGM) 、木薯马赛克病 (CMD) 和健康 。可用于训练机器学习模型来检测植物疾病,或开发自动植物诊断算法。

直接使用:

https://my5353.com/30293

6. Tomato Leaf Diseases Detection  番茄叶病图像检测数据集

该数据集为番茄叶病图像检测数据集,图像分为以下几类:健康、细菌斑、早疫病、健康、晚疫病、叶霉病、目标点和黑点。图像是用 YOLO v5 PyTorch 格式注释的。

直接使用:

https://my5353.com/30306

7. AMAZON REVIEWS 2023 大型亚马逊评论数据集

AMAZON REVIEWS 2023 是由 McAuley  实验室在 2023 年收集的大规模亚马逊评论数据集,包含了超过 5.7 亿条评论和 4,800 万个商品,涵盖了 33 个不同的类别。

直接使用:

https://my5353.com/30267

8. DiFF 扩散模型生成的面部伪造数据集

DiFF 是一个由山东大学、新加坡国立大学等机构共同研发的高质量、大规模的面部伪造图像数据集,其基于扩散模型生成,含有超过 50 万张图像。该数据集适用于面部伪造检测、深度伪造的对抗性攻击与防御,以及其他相关的计算机视觉任务训练。

直接使用:

https://my5353.com/30260

9. MIntRec2.0 多模态意图识别对话数据集

MIntRec2.0 是清华大学等提出的一个大规模多模态多方基准数据集,专门用于识别对话中的意图和检测非意图内容。相较于先前的 MIntRec,MIntRec2.0 的数据量增至 15K,涵盖 30 种意图类别,并包含约 9.3K 个意图内及 5.7K 个意图外的标注语句,涉及文本、视频和音频等多种模态。

直接使用:

https://my5353.com/30166

10. ApolloCorpora 多语言医疗数据集

ApolloCorpora 是深圳市大数据研究院和香港中文大学的研究团队联合构建的一个多语言医疗数据集。该数据集涵盖了全球 61 亿人口使用的六种主要语言,包括英语、中文、印地语、西班牙语、法语和阿拉伯语。

直接使用:

https://my5353.com/30285

更多公共数据集,请访问

https://hyper.ai/datasets

公共教程精选

1.  在线运行 Deepmoney-34b-full

Deepmoney 是一个专注于金融领域投资的大型语言模型项目。 Deepmoney-34b-full 是基于 01-ai  开源的 Yi-34B-200K 模型进行训练的,分为 pt(全参数训练)和 sft(lora 微调) 两个阶段。现可在超神经官网一键克隆使用。

在线运行:

https://my5353.com/t30314

2.  在线运行 Deepmoney-miqu-70b

该模型是基于 huggingface.co 的 miqu-1-70b-sf 进行训练的,仅进行 sft (lora 微调) ,现可在超神经官网一键克隆使用。

在线运行:

https://my5353.com/t30314

3.  在线运行 Deepmoney-67b-full

该模型是基于 deepseek-ai 开源的 deepseek-llm-67b-base 进行训练的,分为 pt(lora 训练)和 sft (lora 训练) 两个阶段,现可在超神经官网一键克隆使用。

在线运行:

https://my5353.com/t30310

社区文章精选

1.  英伟达黄仁勋发布 GB200,比 H100 推理能力提高 30 倍,能耗降低 25 倍,将 AI4S 能力做成微服务

今年的 2024 GTC AI 大会如约而至,在 3 月 18 日至 3 月 21 日期间,有超 900 场会议与 20 余场技术讲座。本文为黄仁勋在 GTC 主题演讲的干货汇总。

查看完整报道:

https://my5353.com/p30224

2. 33 分钟生成 12 万种碳捕捉候选材料,美国阿贡国家实验室发布生成式 AI 框架,加速 MOFs 创新

来自美国阿贡国家实验室的研究团队,提出了一种生成式 AI 框架 GHP-MOFsassemble,该框架能够随机生成并组装新的 MOFs 结构,通过分子动力学模拟筛选高稳定性的 MOFs 结构,并用晶体图神经网络 (CGCNN) 和巨正则系统蒙特卡罗模拟 (GCMC) 来测试 MOFs 对二氧化碳的吸附能力。相关论文已发表于「Nature」。

查看完整报道:

https://my5353.com/p30269

3.  提前 300 毫秒预测等离子体撕裂风险,普林斯顿大学发布 AI Controller

普林斯顿大学的研究人员开发了一个 AI 控制器进行自适应预测和控制,能够提前 300 毫秒预测到等离子体的潜在撕裂风险并及时干预,相关成果已发表于「Nature」。

查看完整报道:

https://my5353.com/p30296

热门百科词条精选

1.  数据引力 Data Gravity

2.  大规模多任务语言理解(MMLU)

3.  混合专家模型 Mixture of Experts (MoE)

4.  量子神经网络 Quantum Neural Network

5.  神经辐射场 Neural Radiance Field (NeRF)

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://hyper.ai/wiki

B 站直播预告

日期时间内容
3 月 25 日
星期一
10:0017:00MIT 深度学习课程 2020MIT 深度学习课程 2021
3 月 26 日星期二10:00Python API 开发——初学者综合课程
3 月 27 日星期三10:0014:00SQL 教程—初学者课程生成式 AI 全套课程
3 月 28 日星期四21:00面向初学者的 Flutter 课程
3 月 29 日星期五10:00面向初学者的 Flutter 课程
3 月 30 日星期六10:00哈佛 CS50—Python 人工智能课程
3 月 31 日星期日10:00一天内学习 PyTorch  进行深度学习

超神经电视台 7×24h 不间断直播,点击即可收获 AI 领域的「电子榨菜」:

http://live.bilibili.com/26483094

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/