HyperAI超神经

Triton-distributed：使用 Triton 编译器在分布式 AI 系统中编程重叠内核

Zheng Size, Wenlei Bao, Qi Hou, et al.

基于表征自编码器的文本到图像扩散Transformer的扩展

文生图

扩散模型

Shengbang Tong, Boyang Zheng, Ziteng Wang, et al.

机器人技术

多模态表征

Shijie Lian, Bin Yu, Xiaopeng Lin, et al.

扩散模型

推理

Zanlin Ni, Shenzhi Wang, Yang Yue, et al.

Agent

LLM

Daixuan Cheng, Shaohan Huang, Yuxian Gu, et al.

视频理解

视频处理

Haowei Zhang, Shudong Yang, Jinlan Fu, et al.

Agent

LLM

Taofeng Xue, Chong Peng, Mianqiu Huang, et al.

翻译

LLM

Mao Zheng, Zheng Li, Tao Chen, et al.

LLM

代码生成

Jian Yang, Shawn Guo, Lin Jing, et al.

语音生成

音频和语音处理

Hangrui Hu, Xinfa Zhu, Ting He, et al.

Agent

人机交互

Danielle Cohen, Yoni Halpern, Noam Kahlon, et al.

基准

Agent

Zhi Yang, Runguo Li, Qiqi Qiang, et al.

基准

Agent

Peizhou Huang, Zixuan Zhong, Zhongwei Wan, et al.

LLM

推理

Shengda Fan, Xuyan Ye, Yankai Lin

视频生成

具身智能

Yufan Deng, Zilin Pan, Hongyu Zhang, et al.

Agent

检索增强生成

Qianli Ma, Chang Guo, Zhiheng Tian, et al.

推理

LLM

Tianxin Wei, Ting-Wei Li, Zhining Liu, et al.

语音生成

音频和语音处理

Rajarshi Roy, Jonathan Raiman, Sang-gil Lee, et al.

FlashLabs Chroma 1.0：具备个性化语音克隆能力的实时端到端语音对话模型

LLM

语音生成

Tanyu Chen, Tairan Chen, Kai Shen, et al.

基准

偏好

Zecheng Tang, Baibei Ji, Ruoxi Sun, et al.

视频生成

文生视频

Pengze Zhang, Yanze Wu, Mengtian Li, et al.

Agent

LLM

Xiaofang Yang, Lijun Li, Heng Zhou, et al.

统一多模态

LLM

Qian Chen, Jinlan Fu, Changsong Li, et al.

具身智能

机器人技术

Hao Luo, Ye Wang, Wanpeng Zhang, et al.

LLM

Agent

Caihua Li, Lianghong Guo, Yanlin Wang, et al.

监督式微调

数学

Wei Du, Shubham Toshniwal, Branislav Kisacanin, et al.

LLM

文本生成

János Kramár, Joshua Engels, Zheng Wang, et al.

LLM

检索增强生成

Alexander Amini, Anna Banaszak, Harold Benoit, et al.

图生视频

图生图

Shuai Tan, Biao Gong, Ke Ma, et al.

LLM

监督式微调

Christina Lu, Jack Gallagher, Jonathan Michala, et al.

Agent

基准

Jie Yang, Honglin Guo, Li Ji, et al.

推理

算法

Yao Tang, Li Dong, Yaru Hao, et al.

Triton-distributed：使用 Triton 编译器在分布式 AI 系统中编程重叠内核

Zheng Size, Wenlei Bao, Qi Hou, et al.

基于表征自编码器的文本到图像扩散Transformer的扩展

文生图

扩散模型

Shengbang Tong, Boyang Zheng, Ziteng Wang, et al.

机器人技术

多模态表征

Shijie Lian, Bin Yu, Xiaopeng Lin, et al.

扩散模型

推理

Zanlin Ni, Shenzhi Wang, Yang Yue, et al.

Agent

LLM

Daixuan Cheng, Shaohan Huang, Yuxian Gu, et al.

视频理解

视频处理

Haowei Zhang, Shudong Yang, Jinlan Fu, et al.

Agent

LLM

Taofeng Xue, Chong Peng, Mianqiu Huang, et al.

翻译

LLM

Mao Zheng, Zheng Li, Tao Chen, et al.

LLM

代码生成

Jian Yang, Shawn Guo, Lin Jing, et al.

语音生成

音频和语音处理

Hangrui Hu, Xinfa Zhu, Ting He, et al.

Agent

人机交互

Danielle Cohen, Yoni Halpern, Noam Kahlon, et al.

基准

Agent

Zhi Yang, Runguo Li, Qiqi Qiang, et al.

基准

Agent

Peizhou Huang, Zixuan Zhong, Zhongwei Wan, et al.

LLM

推理

Shengda Fan, Xuyan Ye, Yankai Lin

视频生成

具身智能

Yufan Deng, Zilin Pan, Hongyu Zhang, et al.

Agent

检索增强生成

Qianli Ma, Chang Guo, Zhiheng Tian, et al.

推理

LLM

Tianxin Wei, Ting-Wei Li, Zhining Liu, et al.

语音生成

音频和语音处理

Rajarshi Roy, Jonathan Raiman, Sang-gil Lee, et al.

LLM

语音生成

Tanyu Chen, Tairan Chen, Kai Shen, et al.

基准

偏好

Zecheng Tang, Baibei Ji, Ruoxi Sun, et al.

视频生成

文生视频

Pengze Zhang, Yanze Wu, Mengtian Li, et al.

Agent

LLM

Xiaofang Yang, Lijun Li, Heng Zhou, et al.

统一多模态

LLM

Qian Chen, Jinlan Fu, Changsong Li, et al.

具身智能

机器人技术

Hao Luo, Ye Wang, Wanpeng Zhang, et al.

LLM

Agent

Caihua Li, Lianghong Guo, Yanlin Wang, et al.

监督式微调

数学

Wei Du, Shubham Toshniwal, Branislav Kisacanin, et al.

LLM

文本生成

János Kramár, Joshua Engels, Zheng Wang, et al.

LLM

检索增强生成

Alexander Amini, Anna Banaszak, Harold Benoit, et al.

图生视频

图生图

Shuai Tan, Biao Gong, Ke Ma, et al.

LLM

监督式微调

Christina Lu, Jack Gallagher, Jonathan Michala, et al.

Agent

基准

Jie Yang, Honglin Guo, Li Ji, et al.

推理

算法

Yao Tang, Li Dong, Yaru Hao, et al.

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解

灵活性陷阱：为何任意顺序限制制约了扩散语言模型的推理潜力

沙箱中的LLM激发通用代理智能

HERMES：将KV缓存作为分层内存以实现高效的流式视频理解

EvoCUA：通过从可扩展的合成经验中学习来演化计算机使用代理

HY-MT1.5 技术报告

代码的缩放定律：每种编程语言都至关重要

Qwen3_TTS 技术报告

小模型，大成果：通过分解实现卓越的意图抽取

FinVault：面向执行基础环境的金融Agent安全基准测试

MMDeepResearch-Bench：多模态深度研究Agent基准测试

DARC：面向LLM演化的解耦非对称推理课程

面向具身世界的视频生成模型再思考

Paper2Rebuttal：一种用于透明化作者回复辅助的多智能体框架

LLM的智能体推理

PERSONAPLEX：用于全双工对话语音模型的语音与角色控制

FlashLabs Chroma 1.0：具备个性化语音克隆能力的实时端到端语音对话模型

MemoryRewardBench：面向大型语言模型长期记忆管理的奖励模型基准测试

OmniTransfer：面向时空视频迁移的统一框架

面向高效智能体：记忆、工具学习与规划

FutureOmni：基于多模态上下文的未来预测评估方法在多模态LLM中的应用

Being-H0.5：面向跨体感泛化的以人为本机器人学习扩展

基于LLM的软件工程问题求解进展与前沿：一项综合调查

Nemotron-Math：基于多模态监督的高效长 Context 数学推理能力蒸馏

为Gemini构建可投入生产的探测器

LFM2 技术报告

CoDance：一种用于鲁棒多主体动画的解绑-重绑范式

助手轴：语言模型默认人格的定位与稳定化

ABC-Bench：面向真实世界开发中的智能体后端编码基准测试

多路思维：通过逐token分支与合并进行推理

BayesianVLA：通过潜在动作查询对视觉-语言-动作模型进行贝叶斯分解

灵活性陷阱：为何任意顺序限制制约了扩散语言模型的推理潜力

沙箱中的LLM激发通用代理智能

HERMES：将KV缓存作为分层内存以实现高效的流式视频理解

EvoCUA：通过从可扩展的合成经验中学习来演化计算机使用代理

HY-MT1.5 技术报告

代码的缩放定律：每种编程语言都至关重要

Qwen3_TTS 技术报告

小模型，大成果：通过分解实现卓越的意图抽取

FinVault：面向执行基础环境的金融Agent安全基准测试

MMDeepResearch-Bench：多模态深度研究Agent基准测试

DARC：面向LLM演化的解耦非对称推理课程

面向具身世界的视频生成模型再思考

Paper2Rebuttal：一种用于透明化作者回复辅助的多智能体框架

LLM的智能体推理

PERSONAPLEX：用于全双工对话语音模型的语音与角色控制

FlashLabs Chroma 1.0：具备个性化语音克隆能力的实时端到端语音对话模型

MemoryRewardBench：面向大型语言模型长期记忆管理的奖励模型基准测试

OmniTransfer：面向时空视频迁移的统一框架

面向高效智能体：记忆、工具学习与规划

FutureOmni：基于多模态上下文的未来预测评估方法在多模态LLM中的应用

Being-H0.5：面向跨体感泛化的以人为本机器人学习扩展

基于LLM的软件工程问题求解进展与前沿：一项综合调查

Nemotron-Math：基于多模态监督的高效长 Context 数学推理能力蒸馏

为Gemini构建可投入生产的探测器

LFM2 技术报告

CoDance：一种用于鲁棒多主体动画的解绑-重绑范式

助手轴：语言模型默认人格的定位与稳定化

ABC-Bench：面向真实世界开发中的智能体后端编码基准测试

多路思维：通过逐token分支与合并进行推理

Command Palette

论文

Command Palette

论文

Command Palette

论文