HyperAI超神经

视频即答案：基于联合GRPO的下一视频事件预测与生成

视频生成

文生视频

Junhao Cheng, Liang Hou, Xin Tao, et al.

首帧是视频内容定制的首选之地

视频生成

图生视频

Jingxi Chen, Zongxia Li, Zhichao Liu, et al.

多模态

多模态表征

Zhongang Cai, Ruisi Wang, Chenyang Gu, et al.

推理

多模态

Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, et al.

基准

视觉问答

Yang Luo, Xuanlei Zhao, Baijiong Lin, et al.

LLM

代码生成

Allyson Ettinger, Amanda Bertsch, Bailey Kuehl, et al.

AI for Science

推理

Sébastien Bubeck, Christian Coester, Ronen Eldan, et al.

医学影像

图像分类

Emma A.M. Stanley, Raissa Souza, Anthony J. Winder, et al.

Agent

基准

Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, et al.

语义分割

多模态

Geon Choi, Hangyul Yoon, Hyunju Shin, et al.

强化学习

多模态

Yicheng He, Chengsong Huang, Zongxia Li, et al.

多模态表征

推理

Cheng Yang, Haiyuan Wan, Yiran Peng, et al.

视频理解

多模态表征

Yifan Jiang, Yueying Wang, Rui Zhao, et al.

文生图

图生视频

Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.

Yu Liu, Xixun Lin, Yanmin Shang, et al.

视频理解

推理

Jiaze Li, Hao Yin, Wenhui Tan, et al.

视觉问答

多模态

Huiyi Chen, Jiawei Peng, Dehai Min, et al.

基准

视频生成

Xinxin Liu, Zhaopan Xu, Kai Wang, et al.

文生图

扩散模型

Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.

基准

LLM

Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.

LLM

推理

Tianyu Fu, Yichen You, Zekai Chen, et al.

LLM

多模态

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

视频生成

图生视频

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

强化学习

偏好

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

机器人技术

具身智能

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

Agent

LLM

Genglin Liu, Shijie Geng, Sha Li, et al.

强化学习

Agent

Dylan M. Asmar, Mykel J. Kochenderfer

检索增强生成

LLM

Duolin Sun, Meixiu Long, Dan Yang, et al.

扩散模型

LLM

Ye Tian, Ling Yang, Jiongfan Yang, et al.

视频生成

推理

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

统一多模态

3D 生成

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

视频即答案：基于联合GRPO的下一视频事件预测与生成

视频生成

文生视频

Junhao Cheng, Liang Hou, Xin Tao, et al.

首帧是视频内容定制的首选之地

视频生成

图生视频

Jingxi Chen, Zongxia Li, Zhichao Liu, et al.

多模态

多模态表征

Zhongang Cai, Ruisi Wang, Chenyang Gu, et al.

推理

多模态

Fei Tian, Xiangyu Tony Zhang, Yuxin Zhang, et al.

基准

视觉问答

Yang Luo, Xuanlei Zhao, Baijiong Lin, et al.

LLM

代码生成

Allyson Ettinger, Amanda Bertsch, Bailey Kuehl, et al.

AI for Science

推理

Sébastien Bubeck, Christian Coester, Ronen Eldan, et al.

医学影像

图像分类

Emma A.M. Stanley, Raissa Souza, Anthony J. Winder, et al.

Agent

基准

Alexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, et al.

语义分割

多模态

Geon Choi, Hangyul Yoon, Hyunju Shin, et al.

强化学习

多模态

Yicheng He, Chengsong Huang, Zongxia Li, et al.

多模态表征

推理

Cheng Yang, Haiyuan Wan, Yiran Peng, et al.

视频理解

多模态表征

Yifan Jiang, Yueying Wang, Rui Zhao, et al.

文生图

图生视频

Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.

Yu Liu, Xixun Lin, Yanmin Shang, et al.

视频理解

推理

Jiaze Li, Hao Yin, Wenhui Tan, et al.

视觉问答

多模态

Huiyi Chen, Jiawei Peng, Dehai Min, et al.

基准

视频生成

Xinxin Liu, Zhaopan Xu, Kai Wang, et al.

文生图

扩散模型

Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.

基准

LLM

Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.

LLM

推理

Tianyu Fu, Yichen You, Zekai Chen, et al.

LLM

多模态

Zheng Qin, Ruobing Zheng, Yabing Wang, et al.

视频生成

图生视频

Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.

强化学习

偏好

Xin Luo, Jiahao Wang, Chenyuan Wu, et al.

机器人技术

具身智能

Xinhao Cai, Minghang Zheng, Xin Jin, et al.

Agent

LLM

Genglin Liu, Shijie Geng, Sha Li, et al.

强化学习

Agent

Dylan M. Asmar, Mykel J. Kochenderfer

检索增强生成

LLM

Duolin Sun, Meixiu Long, Dan Yang, et al.

扩散模型

LLM

Ye Tian, Ling Yang, Jiongfan Yang, et al.

视频生成

推理

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

统一多模态

3D 生成

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

基于多模态基础模型的时空智能扩展

Step-Audio-R1 技术报告

V-ReasonBench：面向视频生成模型的统一推理基准测试套件

Olmo 3

GPT-5的早期科学加速实验

迈向人工智能在医学影像中偏见的客观、系统评估

成为优秀的AI研究Agent需要什么？——探究创意多样性的作用

指令引导的胸部X光图像病灶分割方法及其自动构建的大规模数据集

VisPlay：从图像中自演化视觉-语言模型

通过视频进行推理：首个基于迷宫求解任务对视频模型推理能力的评估

VIDEOP2R：从感知到推理的视频理解

Kandinsky 5.0：面向图像与视频生成的基础模型家族

JAM-2：具有高成功率的类药物抗体的全计算设计

PathMind：一种基于大型语言模型的知识图谱推理的检索-优先级排序-推理框架

审稿人：超越文本反思，迈向长视频理解中的多模态内省推理

MVI-Bench：面向低视觉语言模型中误导性视觉输入鲁棒性评估的综合性基准

世界模拟器能进行推理吗？Gen-ViRe：一个生成式视觉推理基准

一种风格胜过一行代码：通过离散风格空间实现代码到风格图像的生成

AraLingBench：用于评估大型语言模型阿拉伯语语言能力的人工标注基准

Think-at-Hard：通过选择性潜在迭代提升推理型语言模型

HumanSense：从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

CamCloneMaster：实现基于参考的相机控制用于视频生成

EditScore：通过高保真奖励建模解锁图像编辑中的在线RL

InteractMove：基于文本控制的3D场景中可移动物体的人-物交互生成

WebCoach：具有跨会话记忆引导的自演化Web Agent

信任的学习：在序列决策中对不同建议者可靠性进行贝叶斯自适应

GroupRank：一种由强化学习驱动的分组重排序范式

MMaDA-Parallel：面向思维感知编辑与生成的多模态大扩散语言模型

TiViBench：面向视频生成模型的视频思维推理基准测试

Part-X-MLLM：面向部件感知的3D多模态大语言模型

基于多模态基础模型的时空智能扩展

Step-Audio-R1 技术报告

V-ReasonBench：面向视频生成模型的统一推理基准测试套件

Olmo 3

GPT-5的早期科学加速实验

迈向人工智能在医学影像中偏见的客观、系统评估

成为优秀的AI研究Agent需要什么？——探究创意多样性的作用

指令引导的胸部X光图像病灶分割方法及其自动构建的大规模数据集

VisPlay：从图像中自演化视觉-语言模型

通过视频进行推理：首个基于迷宫求解任务对视频模型推理能力的评估

VIDEOP2R：从感知到推理的视频理解

Kandinsky 5.0：面向图像与视频生成的基础模型家族

JAM-2：具有高成功率的类药物抗体的全计算设计

PathMind：一种基于大型语言模型的知识图谱推理的检索-优先级排序-推理框架

审稿人：超越文本反思，迈向长视频理解中的多模态内省推理

MVI-Bench：面向低视觉语言模型中误导性视觉输入鲁棒性评估的综合性基准

世界模拟器能进行推理吗？Gen-ViRe：一个生成式视觉推理基准

一种风格胜过一行代码：通过离散风格空间实现代码到风格图像的生成

AraLingBench：用于评估大型语言模型阿拉伯语语言能力的人工标注基准

Think-at-Hard：通过选择性潜在迭代提升推理型语言模型

HumanSense：从多模态感知到通过推理实现共情的上下文感知响应的MLLMs

CamCloneMaster：实现基于参考的相机控制用于视频生成

EditScore：通过高保真奖励建模解锁图像编辑中的在线RL

InteractMove：基于文本控制的3D场景中可移动物体的人-物交互生成

WebCoach：具有跨会话记忆引导的自演化Web Agent

信任的学习：在序列决策中对不同建议者可靠性进行贝叶斯自适应

GroupRank：一种由强化学习驱动的分组重排序范式

MMaDA-Parallel：面向思维感知编辑与生成的多模态大扩散语言模型

TiViBench：面向视频生成模型的视频思维推理基准测试

Part-X-MLLM：面向部件感知的3D多模态大语言模型

Command Palette

论文

Command Palette

论文

Command Palette

论文