HyperAI超神经

用于视频生成的带有度量路径的均匀离散扩散

图生视频

扩散模型

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS：用于可扩展通用多模态Game Agent的预训练基础模型

统一多模态

Agent

Zihao Wang, Xujing Li, Yining Ye, et al.

统一多模态

具身智能

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

Agent

LLM

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

LLM

Agent

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

基准

Agent

Mingyi Deng, Lijun Huang, Yani Fan, et al.

文档理解

基准

Hyeonsu Kang, Emily Bao, Anjan Goswami

自动驾驶

地理信息

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

视频生成

多模态

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

Agent

具身智能

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

图像生成

Transformer

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

Agent

LLM

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

语言

代码生成

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

多模态表征

计算机视觉

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

Transformer

LLM

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

基准

推理

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

扩散模型

多模态

Yatai Ji, Teng Wang, Yuying Ge, et al.

文生图

图像生成

Yifu Luo, Penghui Du, Bo Li, et al.

视频生成

图生视频

Yuxuan Bian, Xin Chen, Zenan Li, et al.

Agent

推理

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

扩散模型

强化学习

Lianghong Chen, Dongkyu Eugene Kim, Mike Domaratzki, et al.

Reac-Discovery：一种由人工智能驱动的连续流催化反应器发现与优化平台

AI for Science

建模

Cristopher Tinajero, Marcileia Zanatta, Julián E. Sánchez-Velandia, et al.

AI for Science

深度学习

Hannes Stark, Felix Faltings, MinGyu Choi, et al.

基准

数据集

Yiqian Yang, Tian Lan, Qianghuai Jia, et al.

扩散模型

Transformer

Noam Issachar, Guy Yariv, Sagie Benaim, et al.

文生视频

视频生成

Yihao Meng, Hao Ouyang, Yue Yu, et al.

视频理解

推理

Jiahao Meng, Xiangtai Li, Haochen Wang, et al.

LLM

Transformer

Yuezhou Hu, Jiaxin Guo, Xinyu Feng, et al.

Agent

统一多模态

Qianli Ma, Siyu Wang, Yilin Chen, et al.

多模态

OCR

Ling Xing, Alex Jinpeng Wang, Rui Yan, et al.

用于视频生成的带有度量路径的均匀离散扩散

图生视频

扩散模型

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS：用于可扩展通用多模态Game Agent的预训练基础模型

统一多模态

Agent

Zihao Wang, Xujing Li, Yining Ye, et al.

统一多模态

具身智能

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

Agent

LLM

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

LLM

Agent

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

基准

Agent

Mingyi Deng, Lijun Huang, Yani Fan, et al.

文档理解

基准

Hyeonsu Kang, Emily Bao, Anjan Goswami

自动驾驶

地理信息

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

视频生成

多模态

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

Agent

具身智能

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

图像生成

Transformer

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

Agent

LLM

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

语言

代码生成

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

多模态表征

计算机视觉

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

Transformer

LLM

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

基准

推理

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

扩散模型

多模态

Yatai Ji, Teng Wang, Yuying Ge, et al.

文生图

图像生成

Yifu Luo, Penghui Du, Bo Li, et al.

视频生成

图生视频

Yuxuan Bian, Xin Chen, Zenan Li, et al.

Agent

推理

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

扩散模型

强化学习

Lianghong Chen, Dongkyu Eugene Kim, Mike Domaratzki, et al.

AI for Science

建模

Cristopher Tinajero, Marcileia Zanatta, Julián E. Sánchez-Velandia, et al.

AI for Science

深度学习

Hannes Stark, Felix Faltings, MinGyu Choi, et al.

基准

数据集

Yiqian Yang, Tian Lan, Qianghuai Jia, et al.

扩散模型

Transformer

Noam Issachar, Guy Yariv, Sagie Benaim, et al.

文生视频

视频生成

Yihao Meng, Hao Ouyang, Yue Yu, et al.

视频理解

推理

Jiahao Meng, Xiangtai Li, Haochen Wang, et al.

LLM

Transformer

Yuezhou Hu, Jiaxin Guo, Xinyu Feng, et al.

Agent

统一多模态

Qianli Ma, Siyu Wang, Yilin Chen, et al.

多模态

OCR

Ling Xing, Alex Jinpeng Wang, Rui Yan, et al.

RoboOmni：全景模态上下文中的主动式机器人操作

AgentFold：具有主动上下文管理的长时序Web Agent

通义DeepResearch技术报告

InteractComp：使用模糊查询评估Search Agent

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

前瞻锚定：在基于音频的人体动画中保持角色身份

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

FARMER：基于像素的流式自回归Transformer

数据Agent综述：新兴范式还是被夸大的炒作？

ReCode：统一规划与执行以实现通用粒度控制

Concerto：联合2D-3D自监督学习涌现空间表征

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

DEEDEE：快速且可扩展的分布外动态检测

通过Token重排实现更稀疏的块稀疏注意力

AGI的定义

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

视频作为提示：视频生成的统一语义控制

DeepAgent：具备可扩展工具集的通用推理Agent

不确定性感知的多目标强化学习引导的扩散模型用于三维从头分子设计

Reac-Discovery：一种由人工智能驱动的连续流催化反应器发现与优化平台

BoltzGen：迈向通用结合剂设计

HSCodeComp：面向层级规则应用中深度搜索Agent的现实且专家级基准

DyPE：用于超高分辨率扩散的动态位置外推

HoloCine：电影级多镜头长视频叙事的全局生成

Open-o3 Video：基于显式时空证据的视频推理

AdaSPEC：用于高效推测解码器的可选知识蒸馏

人类-Agent协同的论文到页面制作成本低于0.1美元

从Token化到视觉阅读

RoboOmni：全景模态上下文中的主动式机器人操作

AgentFold：具有主动上下文管理的长时序Web Agent

通义DeepResearch技术报告

InteractComp：使用模糊查询评估Search Agent

VLM-SlideEval：在PPT中评估VLMs的结构化理解与扰动敏感性

TeraSim-World：面向端到端自动驾驶的全球安全关键数据合成

前瞻锚定：在基于音频的人体动画中保持角色身份

VITA-E：自然具身交互中的并发视觉、听觉、语言生成与行动

FARMER：基于像素的流式自回归Transformer

数据Agent综述：新兴范式还是被夸大的炒作？

ReCode：统一规划与执行以实现通用粒度控制

Concerto：联合2D-3D自监督学习涌现空间表征

Magellan：用于潜在空间探索与新颖性生成的引导式MCTS

DEEDEE：快速且可扩展的分布外动态检测

通过Token重排实现更稀疏的块稀疏注意力

AGI的定义

从去噪到精炼：一种面向视觉-语言扩散模型的校正框架

逐步采样，分块优化：面向文本到图像生成的分块级GRPO

视频作为提示：视频生成的统一语义控制

DeepAgent：具备可扩展工具集的通用推理Agent

不确定性感知的多目标强化学习引导的扩散模型用于三维从头分子设计

Reac-Discovery：一种由人工智能驱动的连续流催化反应器发现与优化平台

BoltzGen：迈向通用结合剂设计

HSCodeComp：面向层级规则应用中深度搜索Agent的现实且专家级基准

DyPE：用于超高分辨率扩散的动态位置外推

HoloCine：电影级多镜头长视频叙事的全局生成

Open-o3 Video：基于显式时空证据的视频推理

AdaSPEC：用于高效推测解码器的可选知识蒸馏

人类-Agent协同的论文到页面制作成本低于0.1美元

从Token化到视觉阅读

Command Palette

论文

Command Palette

论文

Command Palette

论文