4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

1 小时前

PiD 是 NVIDIA 发布的一种全新潜空间解码范式，将传统的 VAE 解码过程重新定义为条件像素扩散生成，把解码与超分辨率上采样统一到单一生成模块中。传统潜扩散模型通过 VAE 将潜变量还原为图像，输出分辨率受限，且重建导向的解码器难以补全高频细节、无法纠正潜变量中的伪影。 PiD 引入轻量级噪声感知潜变量适配器（sigma-aware adapter），将含噪潜变量注入像素空间扩散骨干网络，使模型既能处理完全去噪的潜变量，也支持对部分去噪的潜变量提前终止扩散过程。借助 DMD2 蒸馏技术，推理仅需 4 步去噪即可完成。

目前，HyperAI 超神经官网已上线了「PiD：4K 超分辨率图像生成与编辑」，快来试试吧~

在线使用：https://go.hyper.ai/a34Cx

欢迎登录官网查看更多内容：

https://hyper.ai

6 月 19 日- 6 月 26 日，hyper.ai 官网更新速览：

* 优质公共数据集：7 个

* 优质教程精选：14 个

* 社区文章解读：4 篇

* 热门百科词条：5 条

* 7 月截稿顶会：5 个

访问官网：hyper.ai

公共数据集精选

1. SAM 3D Artist Objects 3D 物体重建数据集

SAM 3D Artist Objects 是由 Meta 于 2026 年 6 月发布的 3D 网格配对的数据集，旨在评估真实场景下物体形状与布局的三维重建算法性能，广泛用于图像转三维物体算法的性能测试、模型优化与计算机视觉领域的相关研究工作。该数据集包含 1,000 组真实图像与专业艺术家手工制作的三维网格配对数据。

在线使用：https://go.hyper.ai/rn2aF

2. RHELM 长程记忆评估数据集

RHELM 是由 Microsoft 于 2026 年发布的长程记忆能力评估数据集，旨在提升大模型在复杂动态场景中的长期记忆、多跳推理与时序信息合成能力。该数据集广泛应用于大语言模型长时序记忆评测、 AI 助手长期交互能力验证、大模型多跳推理、时序信息融合与幻觉检测等研究场景。

在线使用：https://go.hyper.ai/OGkUl

3. MAKIEVAL 多语言文化知识评估数据集

MAKIEVAL 是由慕尼黑大学 MaiNLP 研究实验室联合慕尼黑机器学习中心于 2026 年发布的多语言文化知识评估数据集，旨在为大语言模型提供大规模多语言文化知识评估基准，广泛应用于多语言知识表示与文化知识建模研究。该数据集包含 7 个大语言模型在 13 种语言、 19 个国家 / 地区、 6 个文化领域下生成的文本及其自动抽取的文化实体与 Wikidata 对齐结果。

在线使用：https://go.hyper.ai/v7zip

4. Verbatim Spans 查询条件证据提取数据集

Verbatim Spans 是由 TU Wien 联合 KRLabs 于 2026 年 4 月发布的一个多领域查询条件证据提取数据集，旨在构建一个通用的查询条件证据抽取模型训练基准，广泛应用于检索增强生成（RAG）及抽取式问答任务。该数据集包含 174,383 行训练数据与 20,174 行验证数据，覆盖自然语言处理论文、多领域问答以及代码与工具输出三大类型语料。

在线使用：https://go.hyper.ai/hbpjR

5. Nemotron-SFT-Math-v4 数学推理 SFT 数据集

Nemotron-SFT-Math-v4 是由 NVIDIA 于 2026 年 5 月发布的数学推理数据集，旨在解决传统数学数据集质量参差不齐、推理轨迹不规范、准确率低、场景单一的问题，有效提升模型结构化推理、多轨迹推理与答案校验能力。该数据集包含 545,431 条训练样本，涵盖 285,516 条 COT 思维推理样本与 259,915 条 TIR 工具推理样本，覆盖代数、几何、数论、组合数学等竞赛与高校科研级数学场景。

在线使用：https://go.hyper.ai/6ooPw

6. AI Impact on Jobs and Layoff Risk AI 就业影响数据集

AI Impact on Jobs and Layoff Risk 是一个关于人工智能对就业影响的合成结构化机器学习数据集，旨在探索人工智能采用、工作自动化、岗位特征及劳动力技能对现代经济中就业结果的影响，广泛应用于分类建模、劳动力分析、自动化影响研究与人力资源决策支持等任务。

在线使用：https://go.hyper.ai/38bZl

7. Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集

Global Climate & Energy Transition 2000 – 2026 是面向气候变化、能源转型与碳减排研究的全球气候与能源转型数据集，旨在系统刻画全球气候变化与能源转型过程。该数据集记录了 2000 — 2026 年全球气候变化与能源转型进程，涵盖全球及多个区域的温度异常变化。

在线使用：https://go.hyper.ai/ogrSa

公共教程精选

1. PiD：4K 超分辨率图像生成与编辑

PiD 是 NVIDIA 团队推出的即插即用超分辨率解码器。传统扩散模型通过 VAE 解码器将潜在表示还原为图像，输出分辨率受限于约 1024 像素。 PiD 将 VAE 解码的最后一步替换为像素空间扩散过程，仅需 4 步去噪即可直接生成清晰的 4K 图像，无需任何后处理技巧，在不改变原有模型架构的前提下，大幅突破了传统方法的分辨率瓶颈。

在线运行：https://go.hyper.ai/a34Cx

2. LTX-2.3-turbo 视频生成器

LTX-2.3-turbo 是 Lightricks 于 2026 年 3 月发布的一款开源视频生成基础模型，旨在突破开源视频生成能力的极限。该模型采用先进的扩散变换器架构，并结合多模态理解能力，实现了高质量、多分辨率的视频内容生成。

在线运行：https://go.hyper.ai/oepch

3. DiffBrush：手写文本行生成

南开大学与昆仑万维于 2025 年 8 月联合发布了手写文本行生成模型 DiffBrush，并于同年 10 月正式被 ICCV 2025 收录。该模型基于 Stable Diffusion VAE+UNet 架构，支持任意英文文本输入与 IAM 数据集中 496 种手写风格，输出 1024×64 灰度图像，文本内容与书写风格独立可控。推理部署轻量，可直接用于 OCR 训练集生成、手写数据增强及文档仿真等场景。

在线运行：https://go.hyper.ai/qVvl5

4. RE-USE：通用语音增强模型

RE-USE 是 NVIDIA 于 2026 年 3 月发布的通用语音增强模型。它基于 Mamba 架构，能够处理各种采样率和降级类型的噪声语音信号，并且与语言无关。

在线运行：https://go.hyper.ai/MJ0p5

5. TADA-1b：统一语音语言模型

TADA-1b 是 HumeAI 团队于 2026 年 2 月发布的统一语音语言模型，专为语音合成、语音克隆和多语言配音等音频生成任务而设计。该模型基于 Llama 3.2-1B，具有轻量级、高速和稳定的音频生成能力，适用于英语文本转语音 (TTS) 、零样本语音克隆、长篇叙述和语音延续。

在线运行：https://go.hyper.ai/nCSpT

6. Gsplat 3D 高斯泼溅训练与可视化

Gsplat 是由伯克利、 NVIDIA 、上海科技大学等机构联合开发的开源 3DGS CUDA 加速光栅化库，在原始实现基础上深度优化，训练显存降低 4 倍、训练时间缩短 15% 。其核心技术亮点包括：高效的 CUDA 微分光栅化引擎、自适应高斯密度控制策略、兼容 COLMAP 等主流数据格式的灵活数据后端，以及基于 viser 的实时 Web 可视化界面。应用场景覆盖数字孪生、自动驾驶环境感知、文物数字化及电商视觉合成等领域。

在线运行：https://go.hyper.ai/Zihdr

7. DVD：基于生成先验的确定性视频深度估计

DVD（Deterministic Video Depth Estimation）是由香港科技大学（广州）团队于 2026 年 3 月提出的首个确定性视频深度估计框架，通过将预训练的视频扩散模型（Wan2.1）改造为单次前向传播的深度回归器，在保持生成模型强大语义先验的同时，彻底消除了随机性带来的几何幻觉问题。

在线运行：https://go.hyper.ai/AisLp

8. Foundation-1：结构化文本到音乐采样生成

Foundation-1 由 RoyalCities 团队于 2026 年 3 月发布，是一款专为专业音乐制作流程设计的文本到采样音频生成模型。官方版本支持分层可控生成，允许用户自定义乐器系列、子类型、音色、效果、乐理和弦、速度/调号以及小节长度，生成节奏同步、调性锁定的音乐循环片段。此外，该软件还提供了一个统一的 Web Demo，提供完整的交互式生成功能。

在线运行：https://go.hyper.ai/NxUAC

9. Sketch-RNN：矢量草图生成与潜在空间插值

Sketch-RNN 是 Google Brain 团队于 2017 年发布的一种矢量草图序列生成模型。该方法专为手绘草图数据而设计，数据包含笔画偏移量和笔的状态信息。它可以学习草图的连续潜在表示，并生成新的矢量草图序列。 Sketch-RNN 采用编码器-解码器架构。它将输入草图映射到潜在空间，然后使用循环神经网络解码器逐步生成笔画。

在线运行：https://go.hyper.ai/HmcT9

10. Galaxy-Deconv：弱引力透镜星系图像反卷积框架

Galaxy-Deconv 由清华大学的李天尧和西北大学的艾玛·亚历山大共同开发。该项目专注于弱引力透镜星系图像的复原。它使用展开式即插即用 ADMM 算法对受点扩散函数（PSF）模糊和噪声影响的星系图像进行反卷积。本教程将常见的星系反卷积工作流程整理成笔记本，涵盖图像模拟、 COSMOS 数据加载、反卷积推理、 HDF5 数据集检查和基础反卷积练习。

在线运行：https://go.hyper.ai/qGvI1

11. NuExtract3：多模态文档理解与结构化信息抽取模型

NuExtract3 是 NuMind 于 2026 年 6 月发布的 4B 参数多模态视觉语言模型，专为文档理解设计。模型将结构化信息提取与文档图像转 Markdown 两大能力整合于一体，支持文本、图像及图文混合输入，可依据用户提供的 JSON 模板直接输出结构化结果，并完整保留表格、公式与布局信息。

在线运行：https://go.hyper.ai/xirTj

12. DiffusionGemma：基于离散扩散的高速文本生成模型

DiffusionGemma 是 Google DeepMind 利用离散扩散技术构建的文本生成模型。它采用 260 亿参数的专家混合模型 (MoE) 架构，总参数量为 252 亿，其中只有 38 亿个有效参数。通过并行块级扩散采样，它实现了超快的文本生成速度，在单个 H100 GPU 上每秒可生成 1100 多个 token 。

在线运行：https://go.hyper.ai/HV3eM

13. TripoSplat：单张图像生成高质量 3D Gaussian 资产

TripoSplat 是由 VAST-AI Research 与 TripoAI 于 2026 年 5 月联合发布的单图像转 3D 高斯生成方法。模型可将单张 2D 图像转换为高质量的 3D 高斯模型，并可控制高斯分布的数量。该模型采用密度采样高斯 (DeG) 技术，根据物体的几何复杂度自适应地分布高斯中心，并使用 VecSeq 确定性地重排序无序的潜在变量，从而提高生成训练的稳定性。

在线运行：https://go.hyper.ai/wOxUG

14. North Mini Code 1.0：面向代码生成与软件工程任务的 Agent 模型

North Mini Code 1.0 是 Cohere 与 Cohere Labs 于 2026 年 6 月发布的开放权重代码模型，专为代码生成、终端任务与智能体软件工程场景优化。模型支持长时间编码工作、代码推理及工具调用与交错思考，擅长功能实现、脚本编写、调试、终端任务规划及多轮软件工程工作流。

在线运行：https://go.hyper.ai/ycCuG

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD 教程】，入群探讨各类技术问题、分享应用效果~

社区文章解读

1. 麻省理工/IBM 提出迄今为止最大的合成图表数据集 ChartNet，生成 150 万个多样化图表样本

来自麻省理工学院、麻省理工学院-IBM 计算研究实验室和 IBM 研究院的众多专家提出了 ChartNet——一个面向图表理解的百万级高质量多模态数据集，旨在推动图表理解与推理能力的发展。

查看完整报道：https://go.hyper.ai/Kk87Q

2. 谷歌 DeepMind 最新论文揭秘 AI 终局：从 AGI 到 ASI，有 4 条路和 6 道关

Google DeepMind 联合多所顶尖高校发表了最新论文，探讨从通用人工智能（AGI）向超级人工智能（ASI）演进的深远问题。该研究将智能视作连续谱，冷静拆解了 AI 在跨越人类平均水平之后，继续演进的潜在路径与限制瓶颈。该论文为理解 AI 的长期发展轨迹提供了结构化的客观参考。

查看完整报道：https://go.hyper.ai/AOObx

3. 基于 Gemini 1.5 长上下文能力，谷歌对话式医疗系统 AMIE 在 100 例多次就诊场景中达到全科医师的推理水平

Google Deepmind 与 Google Research 近期一项研究以其对话式医疗系统 AMIE 为基础，进一步开发了一套全新的基于 LLM 的智能 Agent 系统，使其能够针对多次随访场景进行临床管理和医患对话优化。 AMIE 利用了 Gemini 模型的长上下文能力，通过结合上下文检索与结构化推理，使其输出能够与最新的临床实践指南和药物处方目录保持一致。

查看完整报道：https://go.hyper.ai/65aHo

4. 材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

来自日本东京科学研究所的研究团队提出了一种深度学习模型的解释方法，能够处理材料科学中的高维光谱数据。研究人员构建了一个包含 2681 种氧化物、硫族化合物及相关化合物的光吸收光谱第一性原理计算数据集。与标准密度泛函计算相比，对光谱起始能量和形状进行校正后，计算结果与已报道的实验光谱吻合度显著提高。

查看完整报道：https://go.hyper.ai/VJbaU

7 月截稿顶会

* 截稿时间为 AoE 时间

一站式追踪人工智能学术顶会：https://go.hyper.ai/event

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

关于 HyperAI 超神经 (hyper.ai)

HyperAI 超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区，致力于成为国内数据科学领域的基础设施，为国内开发者提供丰富、优质的公共资源，截至目前已经：

* 为 2100+ 公开数据集提供国内加速下载节点

* 收录 700+ 经典及流行在线教程

* 解读 300+ AI4Science 论文案例

* 支持 700+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅：

https://hyper.ai

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

1 小时前

目前，HyperAI 超神经官网已上线了「PiD：4K 超分辨率图像生成与编辑」，快来试试吧~

在线使用：https://go.hyper.ai/a34Cx

欢迎登录官网查看更多内容：

https://hyper.ai

6 月 19 日- 6 月 26 日，hyper.ai 官网更新速览：

* 优质公共数据集：7 个

* 优质教程精选：14 个

* 社区文章解读：4 篇

* 热门百科词条：5 条

* 7 月截稿顶会：5 个

访问官网：hyper.ai

公共数据集精选

1. SAM 3D Artist Objects 3D 物体重建数据集

在线使用：https://go.hyper.ai/rn2aF

2. RHELM 长程记忆评估数据集

在线使用：https://go.hyper.ai/OGkUl

3. MAKIEVAL 多语言文化知识评估数据集

在线使用：https://go.hyper.ai/v7zip

4. Verbatim Spans 查询条件证据提取数据集

在线使用：https://go.hyper.ai/hbpjR

5. Nemotron-SFT-Math-v4 数学推理 SFT 数据集

在线使用：https://go.hyper.ai/6ooPw

6. AI Impact on Jobs and Layoff Risk AI 就业影响数据集

在线使用：https://go.hyper.ai/38bZl

7. Global Climate & Energy Transition 2000 – 2026 全球气候能源数据集

在线使用：https://go.hyper.ai/ogrSa

公共教程精选

1. PiD：4K 超分辨率图像生成与编辑

在线运行：https://go.hyper.ai/a34Cx

2. LTX-2.3-turbo 视频生成器

在线运行：https://go.hyper.ai/oepch

3. DiffBrush：手写文本行生成

在线运行：https://go.hyper.ai/qVvl5

4. RE-USE：通用语音增强模型

RE-USE 是 NVIDIA 于 2026 年 3 月发布的通用语音增强模型。它基于 Mamba 架构，能够处理各种采样率和降级类型的噪声语音信号，并且与语言无关。

在线运行：https://go.hyper.ai/MJ0p5

5. TADA-1b：统一语音语言模型

在线运行：https://go.hyper.ai/nCSpT

6. Gsplat 3D 高斯泼溅训练与可视化

在线运行：https://go.hyper.ai/Zihdr

7. DVD：基于生成先验的确定性视频深度估计

在线运行：https://go.hyper.ai/AisLp

8. Foundation-1：结构化文本到音乐采样生成

在线运行：https://go.hyper.ai/NxUAC

9. Sketch-RNN：矢量草图生成与潜在空间插值

在线运行：https://go.hyper.ai/HmcT9

10. Galaxy-Deconv：弱引力透镜星系图像反卷积框架

在线运行：https://go.hyper.ai/qGvI1

11. NuExtract3：多模态文档理解与结构化信息抽取模型

在线运行：https://go.hyper.ai/xirTj

12. DiffusionGemma：基于离散扩散的高速文本生成模型

在线运行：https://go.hyper.ai/HV3eM

13. TripoSplat：单张图像生成高质量 3D Gaussian 资产

在线运行：https://go.hyper.ai/wOxUG

14. North Mini Code 1.0：面向代码生成与软件工程任务的 Agent 模型

在线运行：https://go.hyper.ai/ycCuG

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD 教程】，入群探讨各类技术问题、分享应用效果~

社区文章解读

1. 麻省理工/IBM 提出迄今为止最大的合成图表数据集 ChartNet，生成 150 万个多样化图表样本

查看完整报道：https://go.hyper.ai/Kk87Q

2. 谷歌 DeepMind 最新论文揭秘 AI 终局：从 AGI 到 ASI，有 4 条路和 6 道关

查看完整报道：https://go.hyper.ai/AOObx

3. 基于 Gemini 1.5 长上下文能力，谷歌对话式医疗系统 AMIE 在 100 例多次就诊场景中达到全科医师的推理水平

查看完整报道：https://go.hyper.ai/65aHo

4. 材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

查看完整报道：https://go.hyper.ai/VJbaU

7 月截稿顶会

* 截稿时间为 AoE 时间

一站式追踪人工智能学术顶会：https://go.hyper.ai/event

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

关于 HyperAI 超神经 (hyper.ai)

* 为 2100+ 公开数据集提供国内加速下载节点

* 收录 700+ 经典及流行在线教程

* 解读 300+ AI4Science 论文案例

* 支持 700+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅：

https://hyper.ai

Command Palette

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

公共数据集精选

公共教程精选

社区文章解读

热门百科词条精选

7 月截稿顶会

Command Palette

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

公共数据集精选

公共教程精选

社区文章解读

热门百科词条精选

7 月截稿顶会

相关报道

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Command Palette

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

公共数据集精选

公共教程精选

社区文章解读

热门百科词条精选

7 月截稿顶会

相关报道

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

相关报道

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

相关报道

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

极致轻量，画质不减！ERNIE-Image-Turbo：告别漫长等待，速度快到飞起；引入感知与认知双维指标：阿里多模态统一解析评估数据集 OmniParsingBench 上线

零抽样 TTS 新突破！几秒参考音频，OmniVoice 助你轻松克隆数百种语言；17 种语言一网打尽：MDPBench 解决低资源文字系统解析难的「心头大患」

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

MiniCPM5-1B 采用 RL+OPD 训练，多项复杂任务达 SOTA；面向复杂医疗业务自动化：医疗智能体评测数据集 CHI-Bench 发布

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集