SynthID 隐形水印抢先体验!让 AI 生成内容更可控;超大规模音频字幕数据集已上线,含 600 万个音频文件

特色图像

在 AI 生成内容日益普及的时代下,如何快速分辨内容是人工创作还是 AI 生成已成为热门话题。这不仅涉及新闻真实性、版权保护,还与网络安全密切相关。

近期,Google DeepMind 推出了 SynthID-Text 技术,该技术通过优化文本生成过程中的 Token 概率分数可以在不影响文本质量的同时无损嵌入水印,检测效率极高。与传统技术相比,它以更低的延迟成本实现了更高的分类准确性,为 AI 内容监管提供了创新解决方案。

hyper.ai 官网现已上线 SynthID-Text 使用教程,一键克隆启动即可为 AI 生成添加数字水印:

一键启动链接:

https://go.hyper.ai/lQ1UK

Demo 运行示例

11 月 18 日-11 月 22 日,hyper.ai 官网更新速览:

*  优质公共数据集:10 个

* 优质教程精选:3 个

* 社区文章精选:4 篇

* 热门百科词条:5 条

* 11-12 月截稿顶会:3 个

访问官网:hyper.ai

公共数据集精选

1. MORE 多模态对象-实体关系抽取数据集

该数据集包含了 21 种不同的关系类型,涵盖了超 2 万个多模态关系事实,这些事实标注在 3,559 对文本标题和对应的图像上。

直接使用:https://go.hyper.ai/LlfTx

数据集效果示例

2. Guava Fruit Disease 番石榴果实疾病数据集

该数据集包含了 473 张标记过的番石榴果实图片,这些图片经过了诸如非锐化掩蔽和 CLAHE(对比度受限的自适应直方图均衡化)等预处理步骤,图片数量增加到了 3,784 张,每张图片都被预处理成一致的大小 512×512 像素的 RGB 格式。

直接使用:https://go.hyper.ai/RRLEd

数据集图像示例

3. MAD 军事音频数据集

MAD 数据集旨在为训练和评估音频分类系统提供支持,特别是在与军事活动相关的音频分类任务中,如枪声、炮击或爆炸声等。该数据集从多个军事视频中提取,包含 8,075 个声音样本,分为 7 个类别,总计约 12 小时的音频。

直接使用:https://go.hyper.ai/kxqH3

数据示例

4. MMPR 多模态推理偏好数据集

MMPR 数据集包含 75 万无明确正确答案样本和 250 万有明确正确答案样本。样本覆盖了多个领域,如 VQA 、科学、图表、数学、 OCR 和文档,以确保多样性。该数据集旨在提高模型在多模态推理任务中的表现,同时避免训练过程中的潜在负面影响。

直接使用:https://go.hyper.ai/bbHH0

数据示例

5.ROCOv2 radiology 多模态医学图像数据集

ROCOv2 数据集融合了放射学图像与相关的医学概念和描述,包含了超 7 万张放射学图像,涵盖多种临床模式、解剖区域和方向性(针对 X 射线),每张图像都有相应的医学概念说明。

直接使用:https://go.hyper.ai/XgqCa

数据集图像示例

6. PDFM 地理索引数据集

PDFM 地理索引数据集是用于评估基于人口动态的嵌入 (Population Dynamics Based Embeddings) 的真实数据,包含从地图、搜索趋势汇总以及天气、空气质量等环境因素中捕捉到丰富的人类行为汇总信息。

直接使用:https://go.hyper.ai/jpzY1

7. Mantis-Instruct 多图像指令调优数据集

该数据集是一个专注于多图像指令调优的文本-图像交错多模态数据集,由 14 个子集组成,包含 721K 个例子,用于训练 Mantis 模型系列。该数据集覆盖了多种多图像技能,包括共指、推理、比较和时间理解等多个方面。

直接使用:https://go.hyper.ai/dOtuR

8. MASSW 科学工作流程数据集

MASSW 数据集包含了超过 152k 篇来自 17 个顶级计算机科学会议的同行评审出版物,这些数据覆盖了过去 50 年的时间跨度。该数据集定义了科学工作流的 5 个关键方面:上下文、关键思想、方法、结果和预期影响。这些方面被用来从每篇出版物中提取和结构化信息,从而生成结构化的总结。

直接使用:https://go.hyper.ai/2pUy8

9. AudioSetCaps 音频字幕数据集

AudioSetCaps 音频字幕数据集包含了超 611 万个 10 秒的音频文件。每个音频文件都附有一个描述性标题,还附有 3 个 Q&A 对作为生成最终标题的元数据。

直接使用:https://go.hyper.ai/3QCQP

10. Traditional Chinese Medicine Dataset SFT 中医诊断数据集

该数据集包含约 1GB 的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集主要由非网络来源的内部数据构成,99% 为简体中文内容,质量优异,信息密度可观,适用于预训练或继续预训练用途。

直接使用:https://go.hyper.ai/zb7Uf

公共教程精选

1. SynthID-Text AI 文本生成水印工具

该模型是一种用于识别和验证由大型语言模型 (LLM) 生成的文本的水印技术,它可以保持文本质量并实现高检测精度,同时将延迟成本降至最低。它的核心在于在不损害文本质量和用户体验的前提下,通过细微调整生成过程中的 Token 概率分数来嵌入几乎无法察觉的水印,从而实现高检测精度。

该项目通过 Gradio 接口可以生成前端交互界面,相关模型和依赖已经部署完毕,一键启动即可生成水印文本。

在线运行:https://go.hyper.ai/lQ1UK

模型示例

2. Evo:从分子到基因组规模的序列预测和生成

Evo 是一个生物基础模型,能够跨越生物学的基本语言:DNA 、 RNA 和蛋白质进行泛化。该模型能够执行预测任务和生成设计,涵盖从分子到整个基因组的规模的序列预测和生成。

点击下方链接,按照教程指引即可预测基因组规模序列。

在线运行:https://go.hyper.ai/LgFWm

预测的蛋白质结构示例

3. VASP 教程:1-1. 孤立氧原子的 DFT 计算

VASP 是一个进行电子结构计算和量子力学-分子动力学模拟软件包。它是目前材料模拟和计算物质科学研究中最流行的商用软件之一,其高准确性和强大的功能使其成为研究者进行材料性质预测和设计的重要工具,被广泛用于固体物理学、材料科学、化学、分子动力学等领域。

该教程为 VASP 官方教程的第一部分:孤立氧原子的 DFT 计算。点击下方链接,按照教程指引即可从 0 开始 DFT 高性能计算。

在线运行:https://go.hyper.ai/pa2NX

💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们扫码备注【SD 教程】,入群探讨各类技术问题、分享应用效果~

社区文章精选

1. 入选 NeurIPS 2024!西湖大学提出通用分子逆折叠模型 UniIF,对 AlphaFold 3 形成进一步补充

分子逆折叠在药物和材料设计中起到关键作用,然而过去的研究却很少关注通用分子的逆折叠。针对于此,西湖大学未来产业研究中心的团队提出了一个统一模型 UniIF,用于所有分子的逆折叠。实验结果表明,UniIF 在在蛋白质设计、 RNA 设计和材料设计等多个任务上都达到了最先进的性能。本文是对论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/efhze

2. 稳定性材料生成效率提升 300%!Meta FAIR 发布材料生成模型 FlowLLM,数据集覆盖超 4.5w 种材料

在 AI 技术的跨学科应用中,如何结合离散与连续变量以提升晶体材料的生成质量,已成为晶体材料生成领域的核心难题。针对于此,Meta FAIR 实验室发布材料生成模型 FlowLLM 。该模型在生成稳定材料的效率上比以往模型提升了 300% 以上,生成 S.U.N. 材料的效率也提高了约 50% 。本文是对论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/KJzjz

3. PLM 重大突破!上海交大与上海 AI Lab 最新成果入选 NeurIPS 24,ProSST 有效整合蛋白质结构信息

近日,上海交通大学联合上海人工智能实验室,成功研发了一款具备结构感知能力的预训练蛋白质语言模型——ProSST 。该模型在包含 1,880 万蛋白质结构的大型数据集上进行预训练,能够将蛋白质结构和氨基酸序列信息有效融合,在监督学习任务中显著超越现有模型。本文是对论文的详细解读与分享。

查看完整报道:https://go.hyper.ai/qi5ei

4. 含 284 个数据集,覆盖 18 项临床任务,上海 AI Lab 等发布多模态医疗基准 GMAI-MMBench

上海人工智能实验室等多家科研单位提出了 GMAI-MMBench 基准,覆盖全球的 284 个下游任务数据集,包括 38 种医学影像模态、 18 项临床相关任务、 18 个科室以及视觉问题问答格式的 4 种感知粒度,是迄今为止最全面的通用医疗基准。此外,本文还为大家汇总了其他医学领域数据集,内含一键使用连接。

查看完整报道:https://go.hyper.ai/csr2M

热门百科词条精选

1. Sigmoid 函数

2. 核范数 Nuclear Norm

3.  人工神经网络 NNs

4.  数据增强 Data Augmentation

5.  量子神经网络 Quantum Neural Network

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1300+ 公开数据集提供国内加速下载节点

* 收录 400+ 经典及流行在线教程

* 解读 200+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

最后推荐一个「创作者激励计划」,感兴趣的小伙伴扫码即可参与!