HyperAI超神经

训练成本砍半!OmniConsistency 用 2.6k 张图实现 SOTA 效果;Wan2.1-VACE-14B 解锁视频生成新维度

特色图像

在数字视觉技术蓬勃发展的今天,开源模型在图像风格化上取得了显著突破。然而在风格化一致性方面仍与商业模型存在明显差距。为突破这一技术瓶颈,Show Lab 创新性地推出了 OmniConsistency,这是一种基于大规模扩散变换器构建的一致性插件,旨在弥合开源方法与商业模型之间的性能差距。

OmniConsistency 采用了双阶段渐进式学习策略,将风格学习与一致性保持解耦,从而有效缓解风格退化问题,显著提升了视觉连贯性和美学质量,实现了与商业最先进模型 GPT-4o 相当的性能。

此外,为了支持模型的训练和评估,研究团队还构建了 OmniConsistency 风格化图像对数据集。该数据集利用 GPT-4o 合成了 22 种不同艺术风格的输入图像并为源图像和风格化图像生成相应的描述性文本注释,满足多样化创意需求。

目前,HyperAI 超神经已上线了「OmniConsistency:GPT-4o 级的人物风格迁移模型」和「OmniConsistency 风格化图像对数据集」快来试试吧~

OmniConsistency:GPT-4o 级的人物风格迁移模型

在线使用:https://go.hyper.ai/WU5fY

OmniConsistency 风格化图像对数据集

在线使用:https://go.hyper.ai/RxZk9

6 月 9 日-6 月 13 日,hyper.ai 官网更新速览:

* 优质公共数据集:10 个

* 优质教程精选:13 个

* 本周论文推荐:  5 篇

* 社区文章解读:4 篇

* 热门百科词条:5 条

* 6-7 月截稿顶会:6 个

访问官网:hyper.ai

公共数据集精选

1. OpenThoughts3-1.2M 推理数据集

OpenThoughts3-1.2M 是一个开源的推理数据集,该数据集包含 85 万个数学问题、 25 万个代码问题和 10 万个科学问题,注释使用 QwQ-32B 模型完成。

直接使用:https://go.hyper.ai/1u77Q

数据集框架

2. OpenThoughts2-1M 推理数据集

该数据集以 OpenThoughts-114k 数据集为基础,添加了 OpenR1 等现有数据集以及其他数学和代码推理数据,数据包含 100 万个高质量示例,涵盖数学、科学、代码和谜题等领域。在此数据集上训练的 OpenThinker2 模型性能可与 DeepSeek-R1-Distill 模型相媲美。

直接使用:https://go.hyper.ai/FK1Z3

数据结构

3. OmniConsistency 风格化图像对数据集

OmniConsistency 是一个大规模多风格图像对数据集,聚焦于图像风格化与跨模态一致性学习,旨在为图像生成、风格迁移及多模态模型训练提供标准化资源。该数据集涵盖卡通、油画、传统艺术、像素艺术等 22 种不同的艺术风格,满足多样化创意需求。

直接使用:https://go.hyper.ai/RxZk9

4. Nemotron-Personas 人物角色数据集

该数据集包含基于现实世界人口统计、地理分布和性格特征的人工合成人物角色,旨在捕捉人口的多样性和丰富性。它是同类数据集中首个与姓名、性别、年龄、背景、婚姻状况、教育程度、职业和居住地等属性相关的统计数据集。

直接使用:https://go.hyper.ai/uwpRH

5. VCBench 数学推理基准数据集

VCBench 是一个专为评估具备显式视觉依赖性的多模态数学推理基准数据集。该数据集包含 1,720 个问答对,共包含 6,697 张图片。

直接使用:https://go.hyper.ai/4Ck1t

6. AudioTrust 音频基准数据集

该数据集是一个大规模音频 – 文本基准数据集,作为首个专为音频大模型量身打造的多维信任评估基准,AudioTrust 专注于评估音频大语言模型(ALLMs)的多维度可信性。

直接使用:https://go.hyper.ai/WgJSW

7. LEXam 法律推理基准数据集

该数据集包含来自瑞士苏黎世大学法学院的 340 场不同课程、不同级别(本科与硕士)的真实法律考试,覆盖瑞士、欧洲及国际法,以及法学理论和法律历史领域。该数据集共有 4,886 道问题,其中包括 2,841 道长篇问答题和 2,045 道多项选择题。

直接使用:https://go.hyper.ai/qYpoL

8. ReasonMap 交通图推理基准数据集

ReasonMap 强调图像中的空间关系和路线推理,是首个聚焦于高分辨率交通图(主要为地铁图)的多模态推理评测基准,专为评估大模型在理解图像中细粒度的结构化空间信息方面的能力而设计。

直接使用:https://go.hyper.ai/5ejzs

9. Chinese-LiPS 多模态语音识别数据集

Chinese-LiPS 作为首个「唇读信息+幻灯片语义信息」结合的中文多模态语音识别数据集,涵盖中文讲解、科普、教学、知识传播等复杂语境,致力于推动中文多模态语音识别技术的发展。

直接使用:https://go.hyper.ai/uaDMt

10. Brain Tumor 脑肿瘤数据集

该数据集是一个脑肿瘤 MRI 分割与分类数据集,旨在为脑肿瘤的医学影像分析提供高质量数据支撑,适用于脑肿瘤分割和分类任务。数据包含约 5,000 张 MRI 切片。

直接使用:https://go.hyper.ai/8qq5w

公共教程精选

本周汇总了 4 类优质公共教程:

*视频生成教程:3 个

*图像处理教程:3 个

*语音生成教程:2 个

*大模型部署教程:2 个

*AI for Science 教程:2 个

视频生成教程

1. ComfyUI HunyuanCustom 视频生成工作流教程

HunyuanCustom 是一个多模态定制视频生成框架,一种基于 Hunyuan Video 生成框架构建的以主题一致性为中心的多模态、条件可控的生成模型。它支持生成以文本、图像、音频和视频输入为条件的主题一致性视频。借助 HunyuanCustom 的多模式功能,可以完成众多下游任务。

本教程采用资源为单卡 RTX 4090,视频生成大约需要 10 分钟。建议使用具有 80GB 内存的 GPU,以获得更好的生成质量。

在线运行:https://go.hyper.ai/Vw6bJ

Demo 示例

2. ComfyUI Wan2.1-VACE-14B 图生视频工作流教程

该模型基于通义万相 V2.1 基座训练,是当前业界首个支持多任务灵活组合的视频 AI 工具,能够一站式完成从视频生成到精细化编辑的全流程需求。支持文本到视频、图像到视频、首尾帧到视频等。

本教程采用资源为单卡 A6000,生成视频大约花费 30 分钟,推荐使用更高的算力。

在线运行:https://go.hyper.ai/4ULKi

3. Vchitect-2.0 视频扩散模型 Demo

该模型采用了创新的并行 Transformer 架构设计,拥有 20 亿参数,能够根据文本提示生成流畅、高质量的视频内容。

本教程采用资源为单卡 A6000,一键部署即可自定义生成视频。

在线运行:https://go.hyper.ai/r6OC2

图像处理教程

1. JoyCaption Beta 1 字幕视觉语言模型 Demo

该模型涵盖广泛的图像风格、内容、种族、性别和取向,最小化过滤理解世界的各个方面,但不支持非法内容。用户可以使用多种模式和提示生成描述性字幕,适用于不同的应用场景,如社交媒体帖子、产品列表等。

本教程采用资源为单卡 RTX 4090 ,进入链接生成超贴切内容的字幕~

在线运行:https://go.hyper.ai/13wrE

2. Describe Anything「描述一切」模型 Demo

该模型能够根据用户指定的区域(点、框、涂鸦或蒙版)生成详细的描述。对于视频内容,只需在任意帧上标注区域即可获得完整的描述。

本教程采用资源为单卡 RTX 4090,一键部署即可应用,哪里需要描述点哪里。

在线运行:https://go.hyper.ai/aitMs

3. OmniConsistency:GPT-4o 级的人物风格迁移模型

OmniConsistency 显著提升了视觉连贯性和美学质量,实现了与商业最先进模型 GPT-4o 相当的性能。填补了开源模型与商业模型在风格一致性上的性能差距,为 AI 创作提供了低成本、高可控的解决方案,推动了图像生成技术的民主化。其兼容性和即插即用特性也降低了开发者与创作者的使用门槛。

本教程算力资源采用单卡 RTX A6000 ,进入链接实现个性化创作~

在线运行:https://go.hyper.ai/WU5fY

Demo 示例

语音生成教程

1. Stable-audio-open-small:音频生成模型 Demo

Stable-audio-open-small 专注于高效创作高质量短音频内容。基于先进的扩散模型技术,支持用户通过文本提示快速生成音乐片段、音效及环境声等多样化音频(如鼓点循环、旋律片段或自然音景),适用于音乐制作、游戏开发、影视配乐等场景。

本教程采用资源为单卡 A6000,一键部署做出专属音乐!

在线运行:https://go.hyper.ai/jl9Y3

2. Chatterbox TTS:语音合成 Demo

Chatterbox 是首个支持情感夸张控制的开源 TTS 模型,基于 0.5 亿参数的 LLaMA 架构,使用超过 50 万小时的精选音频数据进行训练,支持多语言和多音色生成,性能超越了 ElevenLabs 等闭源系统。其核心功能之一是零样本语音克隆,仅需 5 秒的参考音频,即可生成高度逼真的个性化语音,无需复杂的训练过程。

本教程算力资源采用单卡 RTX 4090,该模型提示词仅支持英文,快来一键克隆你的专属语音。

在线运行:https://go.hyper.ai/KAF8m

大模型部署教程

1. 一键部署 DeepSeek-R1-0528-Qwen3-8B

该模型参数量为 80 亿,通过将 DeepSeek-R1-0528 的复杂推理能力蒸馏到较小的 Qwen3-8B 基座模型上,融合了 Qwen3 的多语言能力和 DeepSeek-R1 的推理优化,性能媲美 GPT-4,支持单卡高效部署,是学术与企业应用的理想选择。

本教程算力资源采用单卡 RTX 4090 ,进入链接即可一键部署加强版大模型。

在线运行:https://go.hyper.ai/UnQEa

2. vLLM+Open WebUI 部署 AM-Thinking-v1 密集语言模型

AM-Thinking-v1 是专注于增强推理能力的 32 B 密集语言模型。该模型在推理基准测试中表现出强大的性能,可与 DeepSeek-R1 、 Qwen3-235B-A22B 、 Seed1.5-Thinking 等大型 MoE 模型和 Nemotron-Ultra-253B-v1 等更大的密集模型相媲美。

本教程采用资源为双卡 A6000,一键克隆体验 32 B 密集语言模型!

在线运行:https://go.hyper.ai/mbAMu

AI for Science 教程

1. VASP 机器学习力场微调

VASP 是一个计算机程序,用于从第一性原理进行原子尺度材料建模,例如电子结构计算和量子力学分子动力学。本次教程我们将通过不断更改机器学习超参数,生成一系列对应的声子谱图,得到对应的最佳机器学习力场参数文件。

在线运行:https://go.hyper.ai/2DmyQ

2. VASP 机器学习力场计算硅的声子谱

Phonopy 是一款用于在简谐和准简谐水平下计算声子能带结构、热学性质、群速度以及其他与声子相关物理量的 python 工具包。本次教程我们将使用自动化脚本来进行机器学习力场声子谱演示计算流程。

在线运行:https://go.hyper.ai/tmnQ4

本周论文推荐

1. MiMo-VL Technical Report

本文介绍了 2 个开源模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL,这两款强大的视觉语言模型在通用视觉理解和多模态推理方面均达到了最先进的性能。 MiMo-VL-7B-RL 在评估的 40 项任务中,有 35 项超过了 Qwen2.5-VL-7B,并在 OlympiadBench 上获得了 59.4 分,超越了参数量高达 780 亿的模型。此外,文章还贡献了一套涵盖 50 多项任务的全面评估工具,以促进可重复性和推动该领域的发展。

论文链接:https://go.hyper.ai/0v2Lr

2. Will It Still Be True Tomorrow? Multilingual Evergreen Question Classification to Improve Trustworthy QA

大型语言模型(LLMs)在问答(QA)任务中经常出现幻觉现象。一个关键但尚未充分研究的因素是问题的时间属性——即问题是常青的(答案随时间保持稳定)还是可变的(答案随时间变化)。本文引入了 EverGreenQA,这是首个带有常青标签的多语言问答数据集,支持评估和训练。利用 EverGreenQA,对 12 种现代大型语言模型进行了基准测试,以评估它们是否显式地(通过口头判断)或隐式地(通过不确定性信号)编码了问题的时间属性。

论文链接:https://go.hyper.ai/UnDRj

3. MambaNeXt-YOLO: A Hybrid State Space Model for Real-time Object Detection

本文提出了 MambaNeXt-YOLO —— 一个在精度与效率之间取得平衡的全新目标检测框架,具体贡献包括以下三个方面: MambaNeXt 模块:一种混合式设计,将卷积神经网络(CNN)与 Mamba 状态空间结构相结合,既能有效提取局部特征,又能建模远程依赖关系; 多分支非对称融合金字塔网络(MAFPN):一种增强型特征金字塔结构,用于提升不同尺寸目标的多尺度检测能力; 面向边缘设备的效率优化:在未使用任何预训练的前提下,我们的方法在 PASCAL VOC 数据集上实现了 66.6% 的 mAP 和 31.9 FPS 的推理速度,支持在边缘设备如 NVIDIA Jetson Xavier NX 和 Orin NX 上进行高效部署。

论文链接:https://go.hyper.ai/FGaro

4. ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development

本文介绍了 ComfyUI-Copilot,这是一种基于大型语言模型的插件,旨在增强 ComfyUI 的可用性和效率。 ComfyUI-Copilot 系统的核心采用了一种分层多代理框架,其中包括一个中央助理代理负责任务分配和多个专门的工作代理负责不同用途的任务。结果表明它能够准确推荐节点并加速工作流开发。

论文链接:https://go.hyper.ai/n0WyZ

5. Prot42: a Novel Family of Protein Language Models for Target-aware Protein Binder Generation

本文提出了一个全新的蛋白质语言模型家族 —— Prot42,它基于海量未标注蛋白质序列进行预训练。 Prot42 采用仅解码器(decoder-only)架构,借鉴了自然语言处理中的最新进展,能够深度捕捉蛋白质的进化、结构和功能信息,显著拓展了基于语言的计算蛋白设计能力。

论文链接:https://go.hyper.ai/nHOJA

更多 AI 前沿论文:https://go.hyper.ai/iSYSZ

社区文章解读

1. 8 k 长序列建模,蛋白质语言模型 Prot42 仅利用目标蛋白序列即可生成高亲和力结合剂

阿布扎比 Inception AI 研究所与硅谷 Cerebras Systems 公司的联合研究团队开发了 Prot42 ——首个仅依赖蛋白质序列信息、无需 3D 结构输入的蛋白质语言模型(PLMs)家族,实现了长序列建模与高亲和力结合剂生成,为蛋白质设计领域带来颠覆性突破。

查看完整报道:https://go.hyper.ai/UMKY8

2. 活动预告 | AMD/沐曦集成电路/字节跳动/北京大学/上海创智齐聚北京,从底层编译到场景应用的多视角探索

围绕 AI 编译器上下游的创新与实践持续涌现,大家对该领域的关注度也在 up up up! 为了更好地连接前沿研究与应用场景,7 月 5 日,HyperAI 超神经将在北京举办第 7 期 Meet AI Compiler 技术沙龙。 2025 Meet AI Compiler 第 7 期技术沙龙将于 7 月 5 日在北京市车库咖啡举办。

查看完整报道:https://go.hyper.ai/QM1xm

3. 入选 ICML 2025,清华大学/人民大学提出统一生物分子动力学模拟器 UniSim

清华大学刘洋老师组、人民大学高瓴人工智能学院黄文炳老师组共同提出了一种统一的生物分子时间粗化动力学模拟器 UniSim,首次实现了跨分子类型(小分子、多肽、蛋白质)、跨化学环境的统一时间粗化动力学模拟。

查看完整报道:https://go.hyper.ai/gQ1ob

4. 基于 8.6 万蛋白质结构数据,融合量子力学计算的机器学习方法挖掘 69 个全新氮-氧-硫键

乔治奥古斯特大学的团队通过开发创新性的计算生物学算法 SimplifiedBondfinder,系统分析超 86,000 个高分辨率 X 射线蛋白质结构,新发现了此前从未观察到的精氨酸(Arg)-半胱氨酸和甘氨酸(Gly)-半胱氨酸之间形成的新型 NOS 键。

查看完整报道:https://go.hyper.ai/nurdR

热门百科词条精选

1. DALL-E

2.  倒数排序融合 RRF

3.  帕累托前沿 Pareto Front

4. 大规模多任务语言理解 MMLU

5.  对比学习 Contrastive Learning

这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

https://go.hyper.ai/wiki

6-7 月截稿顶会

6 月 19 日 7:59:59 ICDE 2026

7 月 2 日 7:59:59 VLDB 2026

7 月 11 日 7:59:59 POPL 2026

7 月 15 日 7:59:59 SODA 2026

7 月 18 日 7:59:59 SIGMOD 2026

7 月 19 日 7:59:59 ICSE 2026

一站式追踪人工智能学术顶会:https://go.hyper.ai/event

以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

下周再见!