HyperAI超神经

ACES：谁在测试测试集？面向代码生成任务的留一法（Leave-One-Out）AUC 一致性研究

代码生成

LLM

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

从 Agent Trajectories 中学习检索

Agent

检索增强生成

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Agent

基准

Bowen Ye, Rang Li, Qibin Yang, et al.

视频理解

视觉问答

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

代码生成

Agent

DeepReinforce Team, Xiaoya Li, Xiaofei Sun, et al.

LIBERO-Para：针对 VLA 模型改写鲁棒性的诊断性 benchmark 与评估指标

多模态

多模态表征

Chanyoung Kim, Minwoo Kim, Minseok Kang, et al.

TriAttention：基于三角函数 KV Compression 的高效长文本 Reasoning

LLM

Transformer

Weian Mao, Xi Lin, Wei Huang, et al.

文档理解

OCR

Bin Wang, Tianyao He, Linke Ouyang, et al.

Adam's Law：Large Language Models 上的文本频率定律

LLM

监督式微调

Hongyuan Adam Lu, Z.L., Victor Wei, et al.

OpenWorldLib：一种统一的代码库与高级 World Models 的定义

感知

Agent

DataFlow Team, Bohan Zeng, Daili Hua, et al.

语音生成

数据集

Abdoulaye Diack, Perry Nelson, Kwaku Agbesi, et al.

基准

检索增强生成

Joey Zhong, Hao Zhang, Clare Southern, et al.

LLM

推理

Junying Chen, Zhenyang Cai, Ke Ji, et al.

Agent

LLM

Prince Zizhuang Wang, Shuli Jiang

推理

LLM

Jian Yang, Wei Zhang, Jiajun Wu, et al.

多模态

Agent

Qianshan Wei, Yishan Yang, Siyi Wang, et al.

多模态

多模态表征

Phillip Y. Lee, Chanho Park, Mingue Park, et al.

LLM

强化学习

Chenxu Yang, Chuanyu Qin, Qingyi Si, et al.

视频理解

视觉问答

Yujiao Shen, Shulin Tian, Jingkang Yang, et al.

LLM

Agent

Ao Qu, Han Zheng, Zijian Zhou, et al.

多模态

多模态表征

Jona Ruthardt, Manu Gaur, Deva Ramanan, et al.

强化学习

Agent

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, et al.

扩散模型

视频生成

Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, et al.

LLM

深度学习

Xinlei Yu, Zhangquan Chen, Yongbo He, et al.

LLM

模型训练

Hao Liang, Zhengyang Zhao, Meiyi Qiang, et al.

深度学习

基准

Siqiao Xue, Zhaoyang Zhu, Wei Zhang, et al.

代码生成

多模态

Zehai He, Wenyi Hong, Zhen Yang, et al.

多模态

图生图

Haonan Han, Jiancheng Huang, Xiaopeng Sun, et al.

多模态

基准

Fangda Ye, Yuxin Hu, Pengxiang Zhu, et al.

Agent

LLM

Patrice Bechard, Orlando Marquez Ayala, Emily Chen, et al.

Agent

安防

Songyang Liu, Chaozhuo Li, Chenxu Wang, et al.

模型训练

深度学习

Henry Lam, Zitong Wang

ACES：谁在测试测试集？面向代码生成任务的留一法（Leave-One-Out）AUC 一致性研究

代码生成

LLM

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

从 Agent Trajectories 中学习检索

Agent

检索增强生成

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Agent

基准

Bowen Ye, Rang Li, Qibin Yang, et al.

视频理解

视觉问答

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

代码生成

Agent

DeepReinforce Team, Xiaoya Li, Xiaofei Sun, et al.

多模态

多模态表征

Chanyoung Kim, Minwoo Kim, Minseok Kang, et al.

LLM

Transformer

Weian Mao, Xi Lin, Wei Huang, et al.

文档理解

OCR

Bin Wang, Tianyao He, Linke Ouyang, et al.

LLM

监督式微调

Hongyuan Adam Lu, Z.L., Victor Wei, et al.

感知

Agent

DataFlow Team, Bohan Zeng, Daili Hua, et al.

语音生成

数据集

Abdoulaye Diack, Perry Nelson, Kwaku Agbesi, et al.

基准

检索增强生成

Joey Zhong, Hao Zhang, Clare Southern, et al.

LLM

推理

Junying Chen, Zhenyang Cai, Ke Ji, et al.

Agent

LLM

Prince Zizhuang Wang, Shuli Jiang

推理

LLM

Jian Yang, Wei Zhang, Jiajun Wu, et al.

多模态

Agent

Qianshan Wei, Yishan Yang, Siyi Wang, et al.

多模态

多模态表征

Phillip Y. Lee, Chanho Park, Mingue Park, et al.

LLM

强化学习

Chenxu Yang, Chuanyu Qin, Qingyi Si, et al.

视频理解

视觉问答

Yujiao Shen, Shulin Tian, Jingkang Yang, et al.

LLM

Agent

Ao Qu, Han Zheng, Zijian Zhou, et al.

多模态

多模态表征

Jona Ruthardt, Manu Gaur, Deva Ramanan, et al.

强化学习

Agent

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, et al.

扩散模型

视频生成

Zheng-Hui Huang, Zhixiang Wang, Jiaming Tan, et al.

LLM

深度学习

Xinlei Yu, Zhangquan Chen, Yongbo He, et al.

LLM

模型训练

Hao Liang, Zhengyang Zhao, Meiyi Qiang, et al.

深度学习

基准

Siqiao Xue, Zhaoyang Zhu, Wei Zhang, et al.

代码生成

多模态

Zehai He, Wenyi Hong, Zhen Yang, et al.

多模态

图生图

Haonan Han, Jiancheng Huang, Xiaopeng Sun, et al.

多模态

基准

Fangda Ye, Yuxin Hu, Pengxiang Zhu, et al.

Agent

LLM

Patrice Bechard, Orlando Marquez Ayala, Emily Chen, et al.

Agent

安防

Songyang Liu, Chaozhuo Li, Chenxu Wang, et al.

模型训练

深度学习

Henry Lam, Zitong Wang

Claw-Eval：迈向自主 Agent 的可信 Evaluation

Video-MME-v2：迈向全面视频理解 Benchmark 的下一阶段

GrandCode: 通过 Agentic Reinforcement Learning 实现竞技编程中的 Grandmaster 水平

LIBERO-Para：针对 VLA 模型改写鲁棒性的诊断性 benchmark 与评估指标

TriAttention：基于三角函数 KV Compression 的高效长文本 Reasoning

MinerU2.5-Pro：挑战大规模数据中心化文档解析的极限

Adam's Law：Large Language Models 上的文本频率定律

OpenWorldLib：一种统一的代码库与高级 World Models 的定义

WAXAL：大规模多语言非洲语言语音语料库

DRACO：一个面向深度研究准确性、完整性与客观性的跨领域基准

HuatuoGPT-o1：迈向基于 LLM 的医学复杂推理

AgentSocialBench：评估以人为本的 Agent 社交网络中的隐私风险

InCoder-32B-Thinking：面向推理的工业级代码世界模型

Agentic-MME：Agentic 能力究竟为多模态智能带来了什么？

Token Warping 助力多模态大语言模型（MLLMs）从邻近视角进行观测

自蒸馏的 RLVR

面向流式视频理解的简单基线

CORAL：迈向面向开放发现的多智能体自主进化

可操控视觉表示

SKILL0：用于技能内化的上下文智能体强化学习

生成式世界渲染器

潜空间：基础、演进、机制、能力与展望

DataFlex：面向大语言模型数据中心动态训练的统一框架

QuitoBench：一个高质量开源时间序列预测基准

Vision2Web：面向智能体验证的视觉网站开发分层基准测试

ViGoR-Bench：视觉生成模型距离零样本视觉推理器还有多远？

MiroEval：多模态深度研究 Agent 的过程与结果基准测试

终端 Agent 足以胜任企业自动化任务

ClawKeeper：通过技能、插件与监视器实现 OpenClaw Agents 的全面安全防护

用于随机梯度下降快速不确定性量化的廉价 Bootstrap 方法

Claw-Eval：迈向自主 Agent 的可信 Evaluation

Video-MME-v2：迈向全面视频理解 Benchmark 的下一阶段

GrandCode: 通过 Agentic Reinforcement Learning 实现竞技编程中的 Grandmaster 水平

LIBERO-Para：针对 VLA 模型改写鲁棒性的诊断性 benchmark 与评估指标

TriAttention：基于三角函数 KV Compression 的高效长文本 Reasoning

MinerU2.5-Pro：挑战大规模数据中心化文档解析的极限

Adam's Law：Large Language Models 上的文本频率定律

OpenWorldLib：一种统一的代码库与高级 World Models 的定义

WAXAL：大规模多语言非洲语言语音语料库

DRACO：一个面向深度研究准确性、完整性与客观性的跨领域基准

HuatuoGPT-o1：迈向基于 LLM 的医学复杂推理

AgentSocialBench：评估以人为本的 Agent 社交网络中的隐私风险

InCoder-32B-Thinking：面向推理的工业级代码世界模型

Agentic-MME：Agentic 能力究竟为多模态智能带来了什么？

Token Warping 助力多模态大语言模型（MLLMs）从邻近视角进行观测

自蒸馏的 RLVR

面向流式视频理解的简单基线

CORAL：迈向面向开放发现的多智能体自主进化

可操控视觉表示

SKILL0：用于技能内化的上下文智能体强化学习

生成式世界渲染器

潜空间：基础、演进、机制、能力与展望

DataFlex：面向大语言模型数据中心动态训练的统一框架

QuitoBench：一个高质量开源时间序列预测基准

Vision2Web：面向智能体验证的视觉网站开发分层基准测试

ViGoR-Bench：视觉生成模型距离零样本视觉推理器还有多远？

MiroEval：多模态深度研究 Agent 的过程与结果基准测试

终端 Agent 足以胜任企业自动化任务

ClawKeeper：通过技能、插件与监视器实现 OpenClaw Agents 的全面安全防护

用于随机梯度下降快速不确定性量化的廉价 Bootstrap 方法

Command Palette

论文

Command Palette

论文

Command Palette

论文