HyperAI超神经

CoInteract：通过空间结构化协同生成实现物理一致性的人机交互视频合成

视频生成

图生视频

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

Tstars-Tryon 1.0：针对多样化时尚单品的鲁棒且逼真的虚拟试穿研究

图生图

图像生成

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

用于 Large Language Model 推理的快速 NF4 量化反量化 Kernel

LLM

Transformer

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

视频理解

多模态

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

代码生成

Agent

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent

LLM

Guanting Dong, Junting Lu, Junjie Huang, et al.

多模态

自动驾驶

Jinghui Lu, Jiayi Guan, Zhijian Huang, et al.

图像生成

文生图

Chenxi Zhao, Chen Zhu, Xiaokun Feng, et al.

ScribblePrompt: 面向各类生物医学图像的高效且灵活的交互式分割方法

图像分割

医学影像

Halle E. Wong, Marianne Rakic, John Guttag, et al.

Long-VITA: 将 Large Multi-modal Models 扩展至 100 万 tokens 并保持领先的短上下文准确率

多模态

视频理解

Yunhang Shen, Chaoyou Fu, Shaoqi Dong, et al.

Agent

多模态

Yujia Qin, Yining Ye, Junjie Fang, et al.

视频生成

文生视频

Hunyuan Foundation Model Team

检索增强生成

数学

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

Agent

LLM

Chenyu Zhou, Huacan Chai, Wenteng Chen, et al.

Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.

Uday Allu, Sonu Kedia, Tanmay Odapally, et al.

Chang Nie, Chaoyou Fu, Yifan Zhang, et al.

无需数据或优化实现最大脑损伤：通过 Sign-Bit Flips 破坏 Neural Networks

深度学习

LLM

Ido Galil, Moshe Kimhi, Ran El-Yaniv

扩散模型

图像生成

Meng Yu, Lei Sun, Jianhao Zeng, et al.

OCR

文档理解

Handong Zheng, Yumeng Li, Kaile Zhang, et al.

Granite-speech：具备强大英语 ASR 能力的开源语音感知 LLMs

LLM

音频和语音处理

George Saon, Avihu Dekel, Alexander Brooks, et al.

Fish-Speech：利用 Large Language Models 实现先进的多语言 Text-to-Speech 合成

语音生成

LLM

Shijia Liao, Yuxuan Wang, Tianyu Li, et al.

图像修复

视频生成

Saman Motamed, William Harvey, Benjamin Klein, et al.

Han Zhu, Lingxuan Ye, Wei Kang, et al.

视觉如何转化为文本：定位 Vision-Language Models 中的 OCR Routing 瓶颈

OCR

多模态

Jonathan Steinberg, Oren Gal

OCR 还是非 OCR？在 MLLMs 时代利用真实世界大规模数据集重新思考文档信息抽取

文档理解

OCR

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.

dnaHNet：一种用于基因组序列学习的可扩展分层 Foundation Model

深度学习

基因组学

Arnav Shah, Junzhe Li, Parsa Idehpour, et al.

深度学习

视频生成

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.

CoInteract：通过空间结构化协同生成实现物理一致性的人机交互视频合成

视频生成

图生视频

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

Tstars-Tryon 1.0：针对多样化时尚单品的鲁棒且逼真的虚拟试穿研究

图生图

图像生成

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

LLM

Transformer

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

视频理解

多模态

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

代码生成

Agent

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent

LLM

Guanting Dong, Junting Lu, Junjie Huang, et al.

多模态

自动驾驶

Jinghui Lu, Jiayi Guan, Zhijian Huang, et al.

图像生成

文生图

Chenxi Zhao, Chen Zhu, Xiaokun Feng, et al.

图像分割

医学影像

Halle E. Wong, Marianne Rakic, John Guttag, et al.

多模态

视频理解

Yunhang Shen, Chaoyou Fu, Shaoqi Dong, et al.

Agent

多模态

Yujia Qin, Yining Ye, Junjie Fang, et al.

视频生成

文生视频

Hunyuan Foundation Model Team

检索增强生成

数学

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

Agent

LLM

Chenyu Zhou, Huacan Chai, Wenteng Chen, et al.

Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.

Uday Allu, Sonu Kedia, Tanmay Odapally, et al.

Chang Nie, Chaoyou Fu, Yifan Zhang, et al.

深度学习

LLM

Ido Galil, Moshe Kimhi, Ran El-Yaniv

扩散模型

图像生成

Meng Yu, Lei Sun, Jianhao Zeng, et al.

OCR

文档理解

Handong Zheng, Yumeng Li, Kaile Zhang, et al.

LLM

音频和语音处理

George Saon, Avihu Dekel, Alexander Brooks, et al.

语音生成

LLM

Shijia Liao, Yuxuan Wang, Tianyu Li, et al.

图像修复

视频生成

Saman Motamed, William Harvey, Benjamin Klein, et al.

Han Zhu, Lingxuan Ye, Wei Kang, et al.

OCR

多模态

Jonathan Steinberg, Oren Gal

文档理解

OCR

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.

深度学习

基因组学

Arnav Shah, Junzhe Li, Parsa Idehpour, et al.

深度学习

视频生成

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.

用于 Large Language Model 推理的快速 NF4 量化反量化 Kernel

EasyVideoR1：面向视频理解的更简便强化学习方法

MultiWorld：可扩展的多 agent 多视角视频世界模型

OpenGame：面向游戏的开放式 agentic 编程

Agent-World：为演进式通用 agent intelligence 扩展真实世界环境合成规模

OneVL：结合视觉-语言解释的一步式潜在推理与规划

通过判别式文本表示将单步图像生成从类别标签扩展至文本

ScribblePrompt: 面向各类生物医学图像的高效且灵活的交互式分割方法

Long-VITA: 将 Large Multi-modal Models 扩展至 100 万 tokens 并保持领先的短上下文准确率

UI-TARS：开创基于 Native Agent 的自动化 GUI 交互研究

HunyuanVideo: 大规模视频生成模型的系统性框架

MathNet：一个用于数学推理与检索的全球多模态基准测试

LLM Agents 中的外部化：关于 Memory、Skills、Protocols 与 Harness Engineering 的统一综述

主动上下文压缩：LLM Agents 中的自主内存管理

及时止损！通过早期路径剪枝实现高效的并行推理学习

Qwen3.5-Omni 技术报告

面向高效与低成本检索增强生成系统的网页检索感知分块方法（W-RAC）

PersonaVLM：长期的个性化 Multimodal LLMs

无需数据或优化实现最大脑损伤：通过 Sign-Bit Flips 破坏 Neural Networks

阐明扩散概率模型中的 SNR-t 偏差

多模态 OCR：解析文档中的一切内容

Granite-speech：具备强大英语 ASR 能力的开源语音感知 LLMs

Fish-Speech：利用 Large Language Models 实现先进的多语言 Text-to-Speech 合成

视频对象与交互删除

VoxCPM：面向上下文感知语音生成与高保真声音克隆的 Tokenizer-Free TTS

OmniVoice: 迈向基于 Diffusion Language Models 的全语种 Zero-Shot Text-to-Speech 研究

视觉如何转化为文本：定位 Vision-Language Models 中的 OCR Routing 瓶颈

OCR 还是非 OCR？在 MLLMs 时代利用真实世界大规模数据集重新思考文档信息抽取

dnaHNet：一种用于基因组序列学习的可扩展分层 Foundation Model

神经计算机

用于 Large Language Model 推理的快速 NF4 量化反量化 Kernel

EasyVideoR1：面向视频理解的更简便强化学习方法

MultiWorld：可扩展的多 agent 多视角视频世界模型

OpenGame：面向游戏的开放式 agentic 编程

Agent-World：为演进式通用 agent intelligence 扩展真实世界环境合成规模

OneVL：结合视觉-语言解释的一步式潜在推理与规划

通过判别式文本表示将单步图像生成从类别标签扩展至文本

ScribblePrompt: 面向各类生物医学图像的高效且灵活的交互式分割方法

Long-VITA: 将 Large Multi-modal Models 扩展至 100 万 tokens 并保持领先的短上下文准确率

UI-TARS：开创基于 Native Agent 的自动化 GUI 交互研究

HunyuanVideo: 大规模视频生成模型的系统性框架

MathNet：一个用于数学推理与检索的全球多模态基准测试

LLM Agents 中的外部化：关于 Memory、Skills、Protocols 与 Harness Engineering 的统一综述

主动上下文压缩：LLM Agents 中的自主内存管理

及时止损！通过早期路径剪枝实现高效的并行推理学习

Qwen3.5-Omni 技术报告

面向高效与低成本检索增强生成系统的网页检索感知分块方法（W-RAC）

PersonaVLM：长期的个性化 Multimodal LLMs

无需数据或优化实现最大脑损伤：通过 Sign-Bit Flips 破坏 Neural Networks

阐明扩散概率模型中的 SNR-t 偏差

多模态 OCR：解析文档中的一切内容

Granite-speech：具备强大英语 ASR 能力的开源语音感知 LLMs

Fish-Speech：利用 Large Language Models 实现先进的多语言 Text-to-Speech 合成

视频对象与交互删除

VoxCPM：面向上下文感知语音生成与高保真声音克隆的 Tokenizer-Free TTS

OmniVoice: 迈向基于 Diffusion Language Models 的全语种 Zero-Shot Text-to-Speech 研究

视觉如何转化为文本：定位 Vision-Language Models 中的 OCR Routing 瓶颈

OCR 还是非 OCR？在 MLLMs 时代利用真实世界大规模数据集重新思考文档信息抽取

dnaHNet：一种用于基因组序列学习的可扩展分层 Foundation Model

神经计算机

Command Palette

论文

Command Palette

论文

Command Palette

论文