Command Palette
Search for a command to run...
TRELLIS.2:采用 O-Voxel 技术,高效生成复杂 3D 几何与材质;Patient Churn Prediction 数据集:帮助识别有流失风险的患者

当前,从图片生成可用 3D 模型仍然费时费力,传统流程耗时且高度依赖专业建模师手动操作。即便有 AI 辅助,处理复杂形状、透明材质或开放表面时,模型常效果不佳或出现异常结构,且难以生成可直接用于游戏、电商的带逼真材质的成品。
在此背景下,Microsoft 团队于 2025 年 12 月 开源发布 TRELLIS.2,面向单张图像生成高质量 3D 资产与纹理化任务。项目提供从输入图像到 3D 形状与材质的端到端流程,并配套可交互的 Web Demo,便于快速体验与导出资产。 TRELLIS.2 聚焦提升几何细节与纹理一致性,支持多种分辨率与级联推理配置,并通过可控推理参数在速度与质量之间进行权衡,适用于 3D 内容生产、快速原型与创意探索等场景。
目前,HyperAI 超神经官网已上线了「TRELLIS.2 3D 生成 Demo」,快来试试吧~
在线使用:https://go.hyper.ai/drI7I
1 月 19 日-1 月 23 日,hyper.ai 官网更新速览:
* 优质公共数据集:5 个
* 优质教程精选:9 个
* 本周论文推荐:5 篇
* 社区文章解读:4 篇
* 热门百科词条:5 条
* 1 月截稿顶会:3 个
访问官网:hyper.ai
公共数据集精选
1. Patient Segmentation 患者分类数据集
Patient Segmentation 是一个面向医疗分析与营销的患者分类数据集,旨在通过分析患者的人口统计、健康状况、保险类型和医疗使用模式,将患者分成有意义的群体,以提高个性化护理和营销的效果。
直接使用:https://go.hyper.ai/Wp8LS
2. CCTV Incident 跌倒检测数据集
CCTV Incident 是一个开放式合成数据集,专门用于计算机视觉任务中的跌倒检测、姿态估计和事故监控,旨在从 CCTV 俯视视角进行分析,支持模型理解人类姿态,并准确区分站立和跌倒的个体。
直接使用:https://go.hyper.ai/q60Dm

3. Patient Churn Prediction 患者流失预测数据集
Patient Churn Prediction 患者流失预测数据集是一个面向医疗保健领域的分类数据集,包含 2,000 条患者记录,旨在帮助识别有流失风险的患者,以便于提前采取保留措施。
直接使用:https://go.hyper.ai/QAeYw
4. RealTimeFaceSwap-10k 视频通话伪造数据集
RealTimeFaceSwap-10k 视频通话深度伪造检测数据集是一个用于检测视频会议场景下深度伪造视频的数据集。该数据集包含了多种应用场景和数据类型,旨在为视频伪造检测提供基础数据支持。
直接使用:https://go.hyper.ai/SGZRO
5. TransPhy3D 透明反射合成视频数据集
TransPhy3D 是由北京智源人工智能研究院联合南加州大学、清华大学等机构一个合成视频数据集,专注于透明和反射场景。该数据集由 11,000 个序列组成,这些序列使用 Blender/Cycles 渲染,提供高质量的 RGB 帧以及基于物理的深度和法线标签。
直接使用:https://go.hyper.ai/5ExjE
公共教程精选
1.vLLM+Open WebUI 部署 Nemotron-3 Nano
Nemotron-3-Nano-30B-A3B-BF16 是 NVIDIA 从零开始训练的大型语言模型 (LLM),旨在成为一个统一的模型,同时适用于推理和非推理任务。该模型适用于开发人员设计 AI 代理系统、聊天机器人、 RAG 系统和其他 AI 应用。
在线运行:https://go.hyper.ai/VUuDA

2.MedGemma 1.5 多模态 AI 医疗模型
MedGemma 1.5 是一款在医学多模态任务中表现卓越的模型。它在图像分类、视觉问答及医学知识推理等方面具备突出能力,适用于多种临床场景,并能够有效辅助医学研究与实践。该模型基于 SigLIP 图像编码器与高性能语言模块构建,并通过包含医学影像、文本及实验室报告在内的多样化数据集进行预训练,从而实现对高维医学影像、全切片病理图像、纵向影像分析、解剖定位、医疗文档理解及电子健康记录解析等任务的高效处理。
在线运行:https://go.hyper.ai/dZRn9

3.Nemotron-Speech-Streaming-ASR:自动语音识别 Demo
Nemotron Speech Streaming ASR 是由英伟达(NVIDIA)Nemotron Speech 团队发布的流式自动语音识别模型,该模型专为低延迟实时语音转写场景设计,同时具备高吞吐的批量推理能力,适用于语音助手、实时字幕、会议转录及对话式人工智能等应用。模型采用缓存感知型 FastConformer 编码器与 RNN-T 解码器架构,实现了对连续音频流的高效处理,在保持识别精度的同时显著降低了端到端延迟。
在线运行:https://go.hyper.ai/SDEBI

4.TranslateGemma-4B-IT:谷歌开源的系列翻译模型
TranslateGemma 是由谷歌翻译团队发布的轻量级开源翻译模型系列。该系列基于 Gemma 3 模型家族构建,专为多语言文本翻译与实际部署场景设计。该系列在紧凑的参数规模下提供稳定可用的翻译能力,适用于 GPU 内存有限或需快速部署的环境中进行加载与推理。
在线运行:https://go.hyper.ai/FRy35

5.GLM-Image 精准语义高保真图像生成模型
GLM-Image 是由智谱 AI 开源的一款融合自回归解码与扩散式解码的图像生成模型。该模型支持文生图和图生图功能,基于统一的视觉-语言表示构建,使得同一模型既能理解文本提示与输入图像,又能通过 DiT(Diffusion Transformer)风格的扩散主干网络对图像进行精细化生成。
在线运行:https://go.hyper.ai/2bcfV

6.TRELLIS.2 3D 生成 Demo
TRELLIS.2 是由微软团队发布的开源项目,一个拥有 40 亿参数的大型模型,专注于从单张图片直接生成带完整材质、可直接使用的 3D 资产。该模型统一了高质量几何与材质生成,将高保真几何重建与全维度 PBR 材质合成在一个流程内完成。
在线运行:https://go.hyper.ai/drI7I

7.vLLM+Open WebUI 部署 FunctionGemma-270m-it
FunctionGemma-270m-it 是由 Google DeepMind 发布的轻量级专用函数调用模型,参数量为 2.7 亿。该模型基于 Gemma 3 270M 架构构建,并采用与 Gemini 系列相同的研究技术进行训练。此模型专为函数调用场景设计,使用了截至 2024 年 8 月共计 6T token 的训练数据,涵盖公共工具定义及工具使用交互数据。 FunctionGemma 支持最大 32K token 的上下文长度,并经过了严格的内容安全过滤及负责任的人工智能开发流程。
在线运行:https://go.hyper.ai/pdN7q

8.Fun-ASR-Nano:端到端的语音识别大模型
Fun-ASR-Nano 是阿里巴巴通义实验室推出的端到端大模型语音识别方案,属于 Fun-ASR 系列的一部分。该方案面向低算力部署场景,致力于实现低延迟的语音转写,并注重在实际评估集上的表现。其功能包括多语种自由语音识别(自由语码转换)、可定制热词以及幻觉抑制等。
在线运行:https://go.hyper.ai/j7OdD

9.Fara-7B:高效的网页智能体模型
Fara-7B 是由 Microsoft Research 发布的首个面向计算机使用(Computer Use)的智能体小语言模型(Agentic SLM)。模型参数规模仅 70 亿(7B),但在真实网页操作任务中表现突出,在多项 Web Agent 基准测试中达到了同规模模型中的 state-of-the-art(SOTA)水平,并在部分任务上接近甚至超过更大规模模型。
在线运行:https://go.hyper.ai/2e5rp

💡我们还建立了 Stable Diffusion 教程交流群,欢迎小伙伴们扫码备注【SD 教程】,入群探讨各类技术问题、分享应用效果~

本周论文推荐
1. Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
本文构建首个视频深度研究基准 VideoDR,要求模型从视频提取视觉锚点、交互式检索并基于多源证据进行多跳推理。通过评估不同大模型发现,智能体范式并非总优于工作流范式,其效果取决于模型在长检索链中保持初始视觉锚点的能力。研究指出目标漂移和长期一致性是核心瓶颈。
论文链接:https://go.hyper.ai/uB9jE
2. BabyVision: Visual Reasoning Beyond Language
本文发现,现有 MLLMs 过度依赖语言先验,缺乏人类幼童即具备的核心视觉能力。研究团队提出的 BabyVision 基准测试显示,顶尖模型得分(如 Gemini 为 49.7)远低于成人水平(94.1),甚至不及 6 岁儿童,证明其在基础视觉理解上存在根本缺陷。该研究旨在推动 MLLMs 迈向人类水平的视觉感知与推理。
论文链接:https://go.hyper.ai/cjtcE
3. STEP3-VL-10B Technical Report
本文提出,STEP3-VL-10B 是一个高效的开源多模态基础模型,通过统一预训练、强化学习和创新的并行协调推理机制,在仅 100 亿参数下实现了卓越性能。它在多项基准测试中媲美或超越了规模大 10 到 20 倍的巨型模型以及顶尖闭源模型,为社区提供了一个强大且高效的视觉语言智能基准。
论文链接:https://go.hyper.ai/q6kmv
4. Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
本文提出让模型具备「使用地图思考」的能力,通过代理-地图循环与两阶段优化,强化学习与并行测试时扩展,显著提升了图像地理定位精度。在新构建的真实图像基准 MAPBench 上,该方法超越现有开源与闭源模型,将 500 米内准确率从 8.0% 大幅提升至 22.1% 。
论文链接:https://go.hyper.ai/Fn9XT
5. Urban Socio-Semantic Segmentation with Vision-Language Reasoning
本研究提出 SocioSeg 数据集及 SocioReasoner 框架,利用视觉语言模型进行推理,以解决卫星图像中社会语义实体的分割难题。该方法通过跨模态识别与多阶段推理模拟人类标注过程,并借助强化学习优化,在实验中超越了现有先进模型,展现出强大的零样本泛化能力。
论文链接:https://go.hyper.ai/PW7g4
社区文章解读
1. 整合蛋白序列/三维结构/功能特征等数据,德国团队基于度量学习构建构建人类 E3 泛素连接酶「全景图」
生物体中,细胞蛋白的及时降解与更新是维持蛋白稳态的关键。泛素-蛋白酶体系统(UPS)是调控信号传导和蛋白质降解的核心机制。在这一系统中,E3 泛素连接酶作为关键催化单元,迄今为止,已研究的 E3 连接酶表现出高度异质性。在此背景下,来自德国歌德大学的研究团队对「人类 E3 连接酶组(human E3 ligome)」进行了分类,该团队的分类方法基于度量学习(metric-learning)范式,采用弱监督的层级框架,以捕捉 E3 家族及亚家族间的真实关系。
查看完整报道:https://go.hyper.ai/zyM1F
2. 耶鲁大学提出 MOSAIC,构建超 2 千个 AI 化学专家,专业分工高效锁定最优合成路线
现代合成化学正面临知识迅速积累与应用转化效率之间的突出矛盾。目前,该领域的发展主要受限于两方面,其一是专家经验难以覆盖持续扩张的反应空间,在跨学科合成任务中往往伴随高昂的试错成本;其二,尽管人工智能技术发展迅速,但通用模型在化学领域的应用仍存在可靠性不足,在此背景下,耶鲁大学研究团队近期提出 MOSAIC 模型,将通用大语言模型转化为一个由众多专业化学专家构成的协作系统。
查看完整报道:https://go.hyper.ai/oatBT
3. 在线教程丨 GLM-Image 基于自回归+扩散解码器混合架构,精准理解指令写对文字
在图像生成领域,扩散模型因其训练稳定和泛化能力强已逐渐走入主流行列。然而,面对「知识密集型」场景时,传统模型存在指令理解与细节刻画难以兼顾的短板。基于此,智谱联合华为开源了新一代图像生成模型 GLM-Image 。该模型基于昇腾 Atlas 800T A2 和昇思 MindSpore AI 框架完成全流程训练。其核心特点是采用了创新的「自回归+扩散解码器」混合架构(9B 自回归模型 + 7B DiT 解码器),将语言模型的深度理解能力与扩散模型的高质量生成能力相结合。
查看完整报道:https://go.hyper.ai/LTojo
4. 清华/芝加哥大学最新 Nature 成果!AI 令科学家提前 1.37 年晋升,科学探索范围缩减 4.63%
近期,清华大学联合芝加哥大学的研究团队在 Nature 发表题为「Artificial intelligence tools expand scientists’ impact but contract science’s focus」的最新研究成果,为行业理解 AI 对科学的根本性影响提供了前所未有的系统性证据。
查看完整报道:https://go.hyper.ai/0NhLI
热门百科词条精选
1. 每秒帧数 FPS
2. 倒数排序融合 RRF
3. 视觉语言模型 VLM
4. 超网络 HyperNetworks
5. 门控注意力 Gated Attention
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

站式追踪人工智能学术顶会:https://go.hyper.ai/event
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
下周再见!








