HyperAI超神经

Anqi Liu, Rui Huang, Aoxin Ma, et al.

TRACE：基于贡献估计的轮次级奖励分配方法用于长程智能体

Leitian Tao, Baolin Peng, Wenlin Yao, et al.

KeyFrame-Compass：面向关键帧条件视频生成综合评估的基准

视频生成

图生视频

Yuqi Tang, Tengfei Liu, Yizheng Lai, et al.

BadWAM：当世界-行动模型想象正确却行动错误时

多模态表征

Qi Li, Xingyi Yang, Xinchao Wang

SearchOS-V1：迈向稳健的开放域信息搜索智能体协作

Yuyao Zhang, Junjie Gao, Zhengxian Wu, et al.

SEED：面向智能体强化学习的自进化在线策略蒸馏

Jinyang Wu, Shuo Yang, Zhengxi Lu, et al.

VideoChat3：面向高效通用视频理解的全开源视频多模态大语言模型

视频理解

Xinhao Li, Yuhan Zhu, Xiangyu Zeng, et al.

LongStraw：固定GPU预算下超越200万Token的长上下文强化学习

Changhai Zhou, Kieran Liu, Yuhua Zhou, et al.

遥感中的深度学习：综述

Xiao Xiang Zhu, Devis Tuia, Lichao Mou, et al.

遥感

基于深度神经网络的语音增强回归方法

音频和语音处理

Yong Xu, Jun Du, Li-Rong Dai, et al.

语音识别中声学建模的深度神经网络

神经网络

音频和语音处理

Geoffrey Hinton, Li Deng, Dong Yu, et al.

RoboTTT：机器人策略的上下文扩展

模型训练

Yunfan Jiang, Yevgen Chebotar, Ruijie Zheng, et al.

SWE-agent：智能体-计算机接口实现自动化软件工程

John Yang, Carlos E. Jimenez, Alexander Wettig, et al.

代码生成

向量空间中词表示的高效估计

Tomas Mikolov, Greg Corrado, Kai Chen, et al.

自然语言处理

使用多尺度深度网络从单张图像预测深度图

深度估计

计算机视觉

David Eigen, Christian Puhrsch, Rob Fergus

TabNet：专注可解释的表格学习

Sercan O. Arık, Tomas Pfister

AudioPaLM：一个能说会听的大型语言模型

Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, et al.

统一多模态

SQuAD：面向文本机器理解的十万余问答数据集

智能问答

自然语言处理

Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, et al.

DeepPose：基于深度神经网络的人体姿态估计

Alexander Toshev, Christian Szegedy

计算机视觉

现代智能体系统中的自我改进：综述

Zhe Ren, Yimeng Chen, Dandan Guo, et al.

面向智能体强化学习的单次异步优化方法

Zhenyu Hou, Yujiang Li, Jie Tang, et al.

SparDA：面向高效长上下文大语言模型推理的稀疏解耦注意力机制

Transformer

Yaosheng Fu, Guangxuan Xiao, Xin Dong, et al.

MetaView：基于尺度感知隐式几何先验的单目新视角合成

3D 生成

扩散模型

Yufei Cai, Xuesong Niu, Hao Lu, et al.

PolicyShiftGuard：政策自适应图像护栏的基准测试与改进

Mingyang Song, Luxin Xu, Haoyu Sun, et al.

监督式微调

KnowAct-GUIClaw：知深行远，具备自进化记忆与技能的个人GUI助手

Yunxin Li, Jinchao Li, Baotian Hu, et al.

OvisOCR2 技术报告

OCR

文档理解

Shiyin Lu, Yinglun Li, Yu Xia, et al.

Boogu-Image-0.1：推动开源统一多模态理解与生成

文生图

图像生成

Rui Liu, Chao Huang, Han Shi, et al.

Harness Handbook：让不断演进的智能体框架变得可读、可导航、可编辑

Ruhan Wang, Yucheng Shi, Zongxia Li, et al.

代码生成

Qwen-Music 技术报告

音频生成

Jin Xu, Shun Lei, Xueyao Zhang, et al.

用于探索、净化与模型合并的谱重连