实时目标检测 SOTA！YOLOv13 拓展全局感知能力；入选 NeurIPS 2025，UltraHR-100K 解锁超高分辨率文生图

8 个月前

实时目标检测长期以来是计算机视觉领域的前沿研究方向。从工业检测到自动驾驶，科研界与工业界对「速度」与「精准」的追求从未停歇。而在这一领域，YOLO 系列模型凭借其推理速度和准确性的出色平衡而占据主流地位。

然而，从早期的 YOLO 版本到最近的 YOLOv11 、乃至采用区域自注意力机制的 YOLOv12，在处理复杂场景时都面临能力限制：卷积操作只能在固定的局部感受野内聚合信息，建模能力受限于卷积核大小和网络深度；虽然自注意力机制扩展了感受野，但仍需要权衡全局建模和感知的高计算成本，更重要的是，自注意力本质上仅能建模像素间的二元相关性。

为解决上述挑战，YOLO 系列迎来最新迭代版本 YOLOv13 。新版本引入了基于超图的自适应相关性增强（HyperACE）机制，能够自适应地利用潜在的高阶相关性，克服了先前方法仅限于基于超图计算进行成对相关性建模的限制，实现了高效的全局跨位置和跨尺度特征融合与增强。在继承 YOLO 系列实时检测优点的基础上，新版本还引入了高阶语义建模、轻量化结构重构等一系列新机制，将传统的基于区域的「成对交互」建模扩展到了全局高阶关联建模。

YOLOv13 在 MS COCO 和 Pascal VOC 等主流数据集上实现了全面领先，展现出更强的泛化能力与部署实用性，在复杂场景中的应用提供了更领先的性能选择。

目前，HyperAI 超神经官网已上线了「一键部署 Yolov13」，快来试试吧~

在线使用：https://go.hyper.ai/PAcy1

11 月 3 日-11 月 7 日，hyper.ai 官网更新速览：

* 优质公共数据集：10 个

* 优质教程精选：3 个

* 本周论文推荐: 5 篇

* 社区文章解读：5 篇

* 热门百科词条：5 条

* 11 月截稿顶会：5 个

访问官网：hyper.ai

公共数据集精选

1. Diabetes Health Indicators 糖尿病健康指标数据集

Diabetes Health Indicators 是一个综合性健康与医疗分析数据集，旨在支持糖尿病风险预测、公共卫生研究与机器学习建模。该数据集共 31 个糖尿病特征字段，涵盖人口学特征、生活方式、病史信息及临床指标四大类变量。

直接使用：https://go.hyper.ai/nVnPo

2. Nemotron Personas USA 美国人物画像数据集

Nemotron‑Personas-USA 是由 NVIDIA 发布的一个大规模合成用户画像数据集，旨在支持大型语言模型（LLMs）和智能代理系统在对话生成、角色模拟、用户建模和多样化行为分析等任务中的训练与评测。

直接使用：https://go.hyper.ai/lMA6r

3. UltraHR-100K 超高分辨率图像数据集

UltraHR-100K 是一个面向超高分辨率（UHR）文本生成图像（T2I）任务的大规模高质量数据集，旨在提升扩散模型在细粒度细节合成、内容多样性表达与视觉保真度方面的能力。该数据集共包含约 100,000 张超高分辨率图像，覆盖广泛，包括人物、建筑等多类主题，其中每张图像的分辨率均超过 3K，并配有高质量富文本描述。

直接使用：https://go.hyper.ai/I3Fwl

4. Life Style Data 生活方式数据集

Life Style Data 是一个综合性健康与健身行为数据集，旨在为个性化健康推荐系统、运动分析与生活方式预测建模提供高质量的数据基础。该数据集整合了个体在日常饮食、运动、生理指标与身体组成等多个维度的信息，以结构化表格（CSV）形式公开，字段完备，覆盖个体特征、运动表现、饮食结构及健身行为等多层次变量。

直接使用：https://go.hyper.ai/SGK9K

5. Global Earthquake-Tsunami Risk 全球地震海啸风险评估数据集

Global Earthquake-Tsunami Risk Assessment 是一个全球地震与海啸风险评估数据集，旨在为海啸风险预测、地震事件分析及地震灾害评估提供标准化、可计算的数据基础。

直接使用：https://go.hyper.ai/a9Nrz

6. ShiftySpeech 语音分布评测数据集

ShiftySpeech 是由约翰霍普金斯大学发布的一个大规模合成语音检测基准，旨在研究语音合成检测模型在真实世界中面对「分布漂移」（包括语言、说话人、生成模型、录音条件变化）时的泛化能力。

直接使用：https://go.hyper.ai/YMKSP

7. APEX 人工智能生产力评测基准数据集

APEX 是由 Mercor 研究团队联合哈佛大学法学院、斯克里普斯研究所首次发布的一个用于评估前沿人工智能模型在高经济价值知识工作中表现的综合性基准测试数据集，旨在衡量前沿人工智能模型在真实经济任务中的执行能力，而非仅停留于抽象推理层面。

直接使用：https://go.hyper.ai/3E2on

8. Multi-LMentry 多语言基础任务基准数据集

Multi-LMentry 是一个多语言评测基准数据集，旨在系统评估大型语言模型（LLMs）在多语言环境下对低层次语言理解与基础推理任务的跨语言泛化能力。该数据集涵盖英语、德语等九种语言，任务由母语使用者手动重新设计，形式与原始 LMentry 框架相似，但并非直接翻译，以确保语言与文化的自然性和适配性。

直接使用：https://go.hyper.ai/o2uJC

9. Ditto-1M 指令驱动视频编辑数据集

Ditto-1M 是由香港科技大学联合蚂蚁集团、浙江大学等机构一个指令驱动视频编辑数据集，旨在推动基于自然语言指令的视频编辑模型的发展，通过大规模、高质量的合成样本，提升模型对复杂指令的理解与视频生成的精确度。

直接使用：https://go.hyper.ai/o2uJC

10. Reac-Discovery 化学反应器性能数据集

Reac-Discovery 是由 Jaume I University 发布的一个用于人工智能驱动的流动反应器设计与反应性能优化的数据集，该数据集依托团队自主开发的 Reac-Discovery 平台，在实验过程中自动生成，未使用任何外部公开数据源。数据集涵盖几何结构、可打印性与反应性能三类数据，对应平台的 Reac-Gen 、 Reac-Fab 、 Reac-Eval 三个功能模块。

直接使用：https://go.hyper.ai/bMxVY

公共教程精选

1. DeepSeek-OCR：「视觉压缩」替代传统字符识别

DeepSeek-OCR 是深度求索公司发布的模型，是通过图像对长上下文进行压缩的可行性初步研究。实验表明，当文本 token 数量不超过视觉 token 的 10 倍（即压缩比 < 10×）时，模型能达到 97% 的解码（OCR）精度。即便在 20× 的压缩比下，OCR 准确率仍约为 60% 。

在线运行：https://go.hyper.ai/wmghV

2. Nanonets-OCR2-3B：更准确的解释复杂文档中的视觉元素

Nanonets-OCR2-3B 是由 Nanonets 发布的图像转 Markdown 模型。 Nanonets-OCR2-3B 不仅可以将文档转换为结构化的 Markdown，还可以利用智能内容识别、语义标记和上下文感知视觉问答，能够更深入地理解和更准确地解释复杂文档。

在线运行：https://go.hyper.ai/3DWbb

3. 一键部署 Yolov13

Yolov13 是由清华大学、太原理工大学、西安交通大学等高校组成的联合研究团队提出的目标检测模型。该模型在继承 YOLO 系列实时检测优点的基础上，引入了超图增强、高阶语义建模、轻量化结构重构等一系列新机制，在 MS COCO 和 Pascal VOC 等主流数据集上实现了全面领先，展现出更强的泛化能力与部署实用性。

在线运行：https://go.hyper.ai/PAcy1

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD 教程】，入群探讨各类技术问题、分享应用效果~

本周论文推荐

1. Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

本文推出 Ling 2.0，这是一个以「每一次激活均提升推理能力」为核心原则构建的、面向系列化推理任务的语言基础模型。该模型在统一的专家混合（Mixture-of-Experts, MoE）架构下，可从数十亿参数扩展至一万亿参数，强调高稀疏性、跨尺度一致性以及由实证缩放定律指导的高效性。

论文链接：https://go.hyper.ai/O4pRV

2. ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

本文构建了 ThinkMorph——一个在 24,000 条高质量交错推理轨迹上微调的统一模型，涵盖视觉参与程度各异的多种任务，能够生成逐步推进的图文推理步骤，在具体操作视觉内容的同时保持连贯的语义逻辑。

论文链接：https://go.hyper.ai/AGtSS

3. Don’t Blind Your VLA: Aligning Visual Representations for OOD Generalization

本研究系统地考察了视觉-语言-动作（Vision-Language-Action, VLA）模型微调过程中表征保留的状况，发现直接的动作微调会导致视觉表征性能退化。为表征并度量这一影响，研究人员对 VLA 模型的隐藏表征进行探查，并分析其注意力图；此外，还设计了一系列针对性任务与方法，将 VLA 模型与其对应的 VLM 模型进行对比，从而隔离出动作微调所引发的视觉-语言能力变化。

论文链接：https://go.hyper.ai/xNU6P

4. OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

本文提出一种新型的混合式安全检测框架 OS-Sentinel，该框架通过形式化验证器（Formal Verifier）协同检测显式的系统级违规行为，同时结合基于 VLM 的上下文判别器（Contextual Judge）评估上下文风险与代理行为。

论文链接：https://go.hyper.ai/bG6b5

5. VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

本文提出了 VCode——一个将多模态理解重构为代码生成任务的基准测试框架：给定一张图像，模型需生成能够保留符号语义以支持下游推理的 SVG 代码。该框架涵盖三个领域：通用常识理解（MM-Vet）、专业学科知识（MMMU）以及以视觉感知为核心的任务（CV-Bench）。

论文链接：https://go.hyper.ai/UNmqK

更多 AI 前沿论文：https://go.hyper.ai/iSYSZ

社区文章解读

1. Demis Hassabis 带领 DeepMind 告别纯科研时代：当 AI4S 成为新叙事，伦理考验仍在继续

2025 年 10 月，Google DeepMind 首席执行官 Demis Hassabis 登上《时代周刊》TIME100 年度榜单封面。从 AlphaGo 到 AlphaFold，Hassabis 坚持 AI4S 的科学导向，但随着 DeepMind 并入 Google，众多媒体对 DeepMind 的商业野心与伦理争议提出了批评。

查看完整报道：https://go.hyper.ai/vSqZI

2. 在线教程丨端侧 TTS 新 SOTA！NeuTTS-Air 基于 0.5B 模型实现 3 秒音频克隆

Neuphonic 公司最新开源端到端语音合成模型 NeuTTS-Air，在开源模型中达到 SOTA 水平，尤其在超真实合成和实时推理基准上。它还能泛化到嵌入式代理和风格迁移等新场景，支持 3 秒音频克隆，并生成自然对话内容。

查看完整报道：https://go.hyper.ai/5kAIi

3. 超越传统 4200 倍速！苏黎世联邦理工提出 NOBLE，首个经人类皮层数据验证的神经元建模框架

苏黎世联邦理工学院、加州理工学院与阿尔伯塔大学等机构的联合团队提出了一种名为 NOBLE 的深度学习框架。它是首个通过人类大脑皮层实验数据来验证其性能的规模化深度学习框架，首次实现了直接从实验数据中学习神经元的非线性动力学行为，其模拟速度比传统数值求解器快出 4200 倍。

查看完整报道：https://go.hyper.ai/oQ74B

4. 服务 OpenAI/Meta/谷歌等，3 名 22 岁辍学生颠覆 AI 招聘赛道，成立 2 年的 Mercor 估值达百亿

Mercor 由 3 位年仅 22 岁的大学辍学生创办，仅用不到 3 年时间完成 3.5 亿美元 C 轮融资，估值飙升至 100 亿美元。公司通过 AI 招聘模式，将传统招聘效率缩至秒级，并推出 APEX 评测，为 AI 经济价值评估提供全新标准。

查看完整报道：https://go.hyper.ai/kBj1w

5. 解决蛋白质构象异质性的原子级建模挑战！David Baker 团队 PLACER 框架解析

来自华盛顿大学 David Baker 教授的研究团队开发了一种图神经网络 PLACER，能够基于小分子的原子组成与键合信息，精确生成多种有机小分子的结构；并在给定蛋白质宏观结构环境的情况下，为蛋白–小分子对接任务构建小分子与蛋白质侧链的详细结构。

查看完整报道：https://go.hyper.ai/sisqO

11 月截稿顶会

一站式追踪人工智能学术顶会：https://go.hyper.ai/event

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

实时目标检测 SOTA！YOLOv13 拓展全局感知能力；入选 NeurIPS 2025，UltraHR-100K 解锁超高分辨率文生图

8 个月前

YOLOv13 在 MS COCO 和 Pascal VOC 等主流数据集上实现了全面领先，展现出更强的泛化能力与部署实用性，在复杂场景中的应用提供了更领先的性能选择。

目前，HyperAI 超神经官网已上线了「一键部署 Yolov13」，快来试试吧~

在线使用：https://go.hyper.ai/PAcy1

11 月 3 日-11 月 7 日，hyper.ai 官网更新速览：

* 优质公共数据集：10 个

* 优质教程精选：3 个

* 本周论文推荐: 5 篇

* 社区文章解读：5 篇

* 热门百科词条：5 条

* 11 月截稿顶会：5 个

访问官网：hyper.ai

公共数据集精选

1. Diabetes Health Indicators 糖尿病健康指标数据集

直接使用：https://go.hyper.ai/nVnPo

2. Nemotron Personas USA 美国人物画像数据集

直接使用：https://go.hyper.ai/lMA6r

3. UltraHR-100K 超高分辨率图像数据集

直接使用：https://go.hyper.ai/I3Fwl

4. Life Style Data 生活方式数据集

直接使用：https://go.hyper.ai/SGK9K

5. Global Earthquake-Tsunami Risk 全球地震海啸风险评估数据集

直接使用：https://go.hyper.ai/a9Nrz

6. ShiftySpeech 语音分布评测数据集

直接使用：https://go.hyper.ai/YMKSP

7. APEX 人工智能生产力评测基准数据集

直接使用：https://go.hyper.ai/3E2on

8. Multi-LMentry 多语言基础任务基准数据集

直接使用：https://go.hyper.ai/o2uJC

9. Ditto-1M 指令驱动视频编辑数据集

直接使用：https://go.hyper.ai/o2uJC

10. Reac-Discovery 化学反应器性能数据集

直接使用：https://go.hyper.ai/bMxVY

公共教程精选

1. DeepSeek-OCR：「视觉压缩」替代传统字符识别

在线运行：https://go.hyper.ai/wmghV

2. Nanonets-OCR2-3B：更准确的解释复杂文档中的视觉元素

在线运行：https://go.hyper.ai/3DWbb

3. 一键部署 Yolov13

在线运行：https://go.hyper.ai/PAcy1

💡我们还建立了 Stable Diffusion 教程交流群，欢迎小伙伴们扫码备注【SD 教程】，入群探讨各类技术问题、分享应用效果~

本周论文推荐

1. Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation

论文链接：https://go.hyper.ai/O4pRV

2. ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

论文链接：https://go.hyper.ai/AGtSS

3. Don’t Blind Your VLA: Aligning Visual Representations for OOD Generalization

论文链接：https://go.hyper.ai/xNU6P

4. OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

论文链接：https://go.hyper.ai/bG6b5

5. VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

论文链接：https://go.hyper.ai/UNmqK

更多 AI 前沿论文：https://go.hyper.ai/iSYSZ

社区文章解读

1. Demis Hassabis 带领 DeepMind 告别纯科研时代：当 AI4S 成为新叙事，伦理考验仍在继续

查看完整报道：https://go.hyper.ai/vSqZI

2. 在线教程丨端侧 TTS 新 SOTA！NeuTTS-Air 基于 0.5B 模型实现 3 秒音频克隆

查看完整报道：https://go.hyper.ai/5kAIi

3. 超越传统 4200 倍速！苏黎世联邦理工提出 NOBLE，首个经人类皮层数据验证的神经元建模框架

查看完整报道：https://go.hyper.ai/oQ74B

4. 服务 OpenAI/Meta/谷歌等，3 名 22 岁辍学生颠覆 AI 招聘赛道，成立 2 年的 Mercor 估值达百亿

查看完整报道：https://go.hyper.ai/kBj1w

5. 解决蛋白质构象异质性的原子级建模挑战！David Baker 团队 PLACER 框架解析

查看完整报道：https://go.hyper.ai/sisqO

11 月截稿顶会

一站式追踪人工智能学术顶会：https://go.hyper.ai/event

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

Command Palette

实时目标检测 SOTA！YOLOv13 拓展全局感知能力；入选 NeurIPS 2025，UltraHR-100K 解锁超高分辨率文生图

公共数据集精选

公共教程精选

本周论文推荐

社区文章解读

热门百科词条精选

11 月截稿顶会

Command Palette

实时目标检测 SOTA！YOLOv13 拓展全局感知能力；入选 NeurIPS 2025，UltraHR-100K 解锁超高分辨率文生图

公共数据集精选

公共教程精选

本周论文推荐

社区文章解读

热门百科词条精选

11 月截稿顶会

相关报道

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

在线教程丨 32K 上下文一次解析数十页文档，百度开源 Unlimited OCR，重构长文档复杂场景

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

在线教程丨香港科技大学团队开源首个确定性视频深度框架 DVD，零样本刷新 SOTA

Command Palette

实时目标检测 SOTA！YOLOv13 拓展全局感知能力；入选 NeurIPS 2025，UltraHR-100K 解锁超高分辨率文生图

公共数据集精选

公共教程精选

本周论文推荐

社区文章解读

热门百科词条精选

11 月截稿顶会

相关报道

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

在线教程丨 32K 上下文一次解析数十页文档，百度开源 Unlimited OCR，重构长文档复杂场景

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

在线教程丨香港科技大学团队开源首个确定性视频深度框架 DVD，零样本刷新 SOTA

相关报道

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

在线教程丨 32K 上下文一次解析数十页文档，百度开源 Unlimited OCR，重构长文档复杂场景

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

在线教程丨香港科技大学团队开源首个确定性视频深度框架 DVD，零样本刷新 SOTA

相关报道

仅需 3 秒音频实现「配音自由」，Mistral 开源语音大模型 Voxtral-4B-TTS-2603；数据质量新标杆：Sutra 10B Pretraini

在线教程丨 32K 上下文一次解析数十页文档，百度开源 Unlimited OCR，重构长文档复杂场景

论文周报 |微软 MAI-Thinking 探索纯 RL 自我进化，AIME 准确率达 97%；无需架构修改，VLM³凭纯文本坐标实现 3D 任务泛化… 速览一周 AI 前沿论文

既快又准！Cohere 发布开源转录模型；复杂场景精准解析：Chandra-ocr-2 视觉语言模型实现精准 OCR

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

支持真人/动漫/动物驱动，美团开源多风格音频驱动视频生成框架 LongCat 1.5；百万级图表理解数据集 ChartNet 提升 VLM 图表重建与表格提取能力

Emoji 也能控制语音生成？Irodori-TTS 基于 RF-DiT 架构的日语 TTS；Eczema and Tinea Skin Disease 数据集：支持医学图像分类与迁移学习

腾讯开源 Hy-MT1.5 翻译模型：440MB 跑出顶级翻译能力；MIT 联合发布 MathNet：涵盖 2.7 万道奥数真题的多模态数学推理基准

在线教程丨香港科技大学团队开源首个确定性视频深度框架 DVD，零样本刷新 SOTA