HyperAI超神经

视频现实性测试：AI生成的ASMR视频能否欺骗视觉语言模型（VLMs）与人类？

多模态

视频处理

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay：迈向实时交互式世界建模的长期几何一致性

视频生成

3D 生成

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

视频生成

推理

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

基准

推理

Miles Wang, Joy Jiao, Neil Chowdhury, et al.

基准

检索增强生成

Aileen Cheng, Alon Jacovi, Amir Globerson, et al.

强化学习

推理

Boxin Wang, Chankyu Lee, Nayeon Lee, et al.

文生视频

视频生成

Kling Team, Jialu Chen, Yikang Ding, et al.

推理

监督式微调

Weizhou Shen, Ziyi Yang, Chenliang Li, et al.

扩散模型

LLM

Jia-Nan Li, Jian Guan, Wei Wu, et al.

Transformer

LLM

Jingdi Lei, Di Zhang, Soujanya Poria

Agent

检索增强生成

Yuyang Hu, Shichun Liu, Yanwei Yue, et al.

视频生成

多模态

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

数据集

监督式微调

Saiyma Sittul Muna, Rezwan Islam Salvi, Mushfiqur Rahman Mushfique, et al.

LLM

高性能计算

Songqiao Su, Xiaofei Sun, Xiaoya Li, et al.

Transformer

机器人技术

Jinliang Zheng, Jianxiong Li, Zhihao Wang, et al.

Yang Fei, George Stoica, Jingyuan Liu, et al.

扩散模型

图像生成

Han Lin, Xichen Pan, Ziqi Huang, et al.

扩散模型

图生视频

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

视频生成

视频处理

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

文生图

扩散模型

Minglei Shi, Haolin Wang, Borui Zhang, et al.

视觉问答

多模态表征

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

检索增强生成

自然语言处理

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

视觉问答

多模态表征

Yue Feng, Jinwei Hu, Qijia Lu, et al.

视频理解

机器人技术

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

图生图

视频生成

Yixin Wan, Lei Ke, Wenhao Yu, et al.

视觉问答

Agent

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

LLM

推理

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

强化学习

3D 生成

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

LLM

推理

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

LLM

推理

Dmitrii Stoianov, Danil Taranets, Olga Tsymboi, et al.

Agent

LLM

Xiao Liu, Bo Qin, Dongzhu Liang, et al.

视频现实性测试：AI生成的ASMR视频能否欺骗视觉语言模型（VLMs）与人类？

多模态

视频处理

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay：迈向实时交互式世界建模的长期几何一致性

视频生成

3D 生成

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

视频生成

推理

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

基准

推理

Miles Wang, Joy Jiao, Neil Chowdhury, et al.

基准

检索增强生成

Aileen Cheng, Alon Jacovi, Amir Globerson, et al.

强化学习

推理

Boxin Wang, Chankyu Lee, Nayeon Lee, et al.

文生视频

视频生成

Kling Team, Jialu Chen, Yikang Ding, et al.

推理

监督式微调

Weizhou Shen, Ziyi Yang, Chenliang Li, et al.

扩散模型

LLM

Jia-Nan Li, Jian Guan, Wei Wu, et al.

Transformer

LLM

Jingdi Lei, Di Zhang, Soujanya Poria

Agent

检索增强生成

Yuyang Hu, Shichun Liu, Yanwei Yue, et al.

视频生成

多模态

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

数据集

监督式微调

Saiyma Sittul Muna, Rezwan Islam Salvi, Mushfiqur Rahman Mushfique, et al.

LLM

高性能计算

Songqiao Su, Xiaofei Sun, Xiaoya Li, et al.

Transformer

机器人技术

Jinliang Zheng, Jianxiong Li, Zhihao Wang, et al.

Yang Fei, George Stoica, Jingyuan Liu, et al.

扩散模型

图像生成

Han Lin, Xichen Pan, Ziqi Huang, et al.

扩散模型

图生视频

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

视频生成

视频处理

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

文生图

扩散模型

Minglei Shi, Haolin Wang, Borui Zhang, et al.

视觉问答

多模态表征

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

检索增强生成

自然语言处理

Xin Zhang, Mingxin Li, Yanzhao Zhang, et al.

视觉问答

多模态表征

Yue Feng, Jinwei Hu, Qijia Lu, et al.

视频理解

机器人技术

Coline Devin, Yilun Du, Debidatta Dwibedi, et al.

图生图

视频生成

Yixin Wan, Lei Ke, Wenhao Yu, et al.

视觉问答

Agent

Haiteng Zhao, Junhao Shen, Yiming Zhang, et al.

LLM

推理

Zijian Wu, Lingkai Kong, Wenwei Zhang, et al.

强化学习

3D 生成

Yiwen Tang, Zoey Guo, Kaixin Zhu, et al.

LLM

推理

Songyang Gao, Yuzhe Gu, Zijian Wu, et al.

LLM

推理

Dmitrii Stoianov, Danil Taranets, Olga Tsymboi, et al.

Agent

LLM

Xiao Liu, Bo Qin, Dongzhu Liang, et al.

MMGR：多模态生成推理

前沿科学：评估AI执行专家级科学任务的能力

FACTS排行榜：大语言模型事实性综合基准

Nemotron-Cascade：面向通用推理模型的级联强化学习扩展

KlingAvatar 2.0 技术报告

QwenLong-L1.5：长上下文推理与记忆管理的后训练方案

ReFusion：一种具有并行自回归解码的扩散型大语言模型

无错误的线性注意力机制：从连续时间动力学中获得的精确解

AI Agent时代中的记忆

LongVie 2：多模态可控超长视频世界模型

FirstAidQA：面向低连接性环境的急救与应急响应合成数据集

CUDA-L2：通过强化学习超越cuBLAS的矩阵乘法性能

X-VLA：作为可扩展跨具身视觉-语言-动作模型的软提示Transformer

Nemotron 3 Nano：面向Agent推理的开源、高效混合专家Mamba-Transformer模型

基于追踪的结构：视频生成中的结构保持性运动知识蒸馏

基于MetaCanvas的MLLM-Diffusion信息传递探索

PersonaLive！用于直播的生动肖像图像动画

V-RGBX：基于内在属性精确控制的视频编辑

SVG-T2I：在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

DentalGPT：激励牙科领域的多模态复杂推理

SSRB：对大规模异构半结构化数据的直接自然语言查询

MUVR：具有多层级视觉对应关系的多模态未剪辑视频检索基准

在Veo世界模拟器中评估Gemini Robotics策略

MotionEdit：面向运动中心图像编辑的基准测试与学习

通过复杂度增强强化学习实现奥运级几何大语言模型智能体

OPV：基于结果的流程验证器，用于高效长链推理验证

文本到3D生成中的强化学习：我们准备好了吗？一项渐进式探究

面向奥数级数学问题求解的长时程推理Agent

T-pro 2.0：一种高效的俄语混合推理LLM与实验平台

AutoGLM：用于GUI的自主基础Agent

MMGR：多模态生成推理

前沿科学：评估AI执行专家级科学任务的能力

FACTS排行榜：大语言模型事实性综合基准

Nemotron-Cascade：面向通用推理模型的级联强化学习扩展

KlingAvatar 2.0 技术报告

QwenLong-L1.5：长上下文推理与记忆管理的后训练方案

ReFusion：一种具有并行自回归解码的扩散型大语言模型

无错误的线性注意力机制：从连续时间动力学中获得的精确解

AI Agent时代中的记忆

LongVie 2：多模态可控超长视频世界模型

FirstAidQA：面向低连接性环境的急救与应急响应合成数据集

CUDA-L2：通过强化学习超越cuBLAS的矩阵乘法性能

X-VLA：作为可扩展跨具身视觉-语言-动作模型的软提示Transformer

Nemotron 3 Nano：面向Agent推理的开源、高效混合专家Mamba-Transformer模型

基于追踪的结构：视频生成中的结构保持性运动知识蒸馏

基于MetaCanvas的MLLM-Diffusion信息传递探索

PersonaLive！用于直播的生动肖像图像动画

V-RGBX：基于内在属性精确控制的视频编辑

SVG-T2I：在无需变分自编码器的情况下扩展文本到图像的潜在扩散模型

DentalGPT：激励牙科领域的多模态复杂推理

SSRB：对大规模异构半结构化数据的直接自然语言查询

MUVR：具有多层级视觉对应关系的多模态未剪辑视频检索基准

在Veo世界模拟器中评估Gemini Robotics策略

MotionEdit：面向运动中心图像编辑的基准测试与学习

通过复杂度增强强化学习实现奥运级几何大语言模型智能体

OPV：基于结果的流程验证器，用于高效长链推理验证

文本到3D生成中的强化学习：我们准备好了吗？一项渐进式探究

面向奥数级数学问题求解的长时程推理Agent

T-pro 2.0：一种高效的俄语混合推理LLM与实验平台

AutoGLM：用于GUI的自主基础Agent

Command Palette

论文

Command Palette

论文

Command Palette

论文