HyperAI超神经

FASTER：重新思考实时流式视觉语言动作模型

多模态

扩散模型

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3DreamBooth：高保真度以主体为中心的 3D 视频生成模型

3D 生成

文生视频

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

视频生成

扩散模型

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

3D 生成

视频生成

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

LLM

推理

Yulin Li, Tengyao Tu, Li Ding, et al.

多模态

多模态表征

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

强化学习

Agent

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

LLM

偏好

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

视频生成

扩散模型

Wei Yu, Runjia Qian, Yumeng Li, et al.

LLM

Agent

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

视频理解

多模态

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge：面向多样化电影场景的零样本电影配音统一数据集工具包与模型

语音生成

多模态

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

面向 Large Language Models 的 In-Context Watermarks

LLM

文本生成

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

扩散模型

视频生成

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

视频生成

扩散模型

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

具身智能

视频生成

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

文档理解

OCR

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

代码生成

LLM

Jian Yang, Wei Zhang, Jiajun Wu, et al.

Agent

推理

MiroMind Team, S. Bai, L. Bing, et al.

3D 生成

机器视觉 3D

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

LLM

Transformer

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

LLM

Transformer

Kimi Team, Guangyu Chen, Yu Zhang, et al.

图生视频

视频生成

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

LLM

Agent

Yuwen Du, Rui Ye, Shuo Tang, et al.

偏好

LLM

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

多模态

视觉问答

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

目标跟踪

视频理解

Tiedong Liu, Wee Sun Lee

多模态

扩散模型

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

代码生成

Agent

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

多模态

统一多模态

Yichen Zhang, Da Peng, Zonghao Guo, et al.

基准

检索增强生成

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

DreamVideo-Omni：通过潜在身份强化学习实现全动作控制的多主体视频定制

文生视频

视频生成

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

FASTER：重新思考实时流式视觉语言动作模型

多模态

扩散模型

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3DreamBooth：高保真度以主体为中心的 3D 视频生成模型

3D 生成

文生视频

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

视频生成

扩散模型

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

3D 生成

视频生成

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

LLM

推理

Yulin Li, Tengyao Tu, Li Ding, et al.

多模态

多模态表征

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

强化学习

Agent

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

LLM

偏好

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

视频生成

扩散模型

Wei Yu, Runjia Qian, Yumeng Li, et al.

LLM

Agent

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

视频理解

多模态

Qile Su, Jing Tang, Rui Chen, et al.

语音生成

多模态

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

LLM

文本生成

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

扩散模型

视频生成

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

视频生成

扩散模型

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

具身智能

视频生成

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

文档理解

OCR

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

代码生成

LLM

Jian Yang, Wei Zhang, Jiajun Wu, et al.

Agent

推理

MiroMind Team, S. Bai, L. Bing, et al.

3D 生成

机器视觉 3D

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

LLM

Transformer

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

LLM

Transformer

Kimi Team, Guangyu Chen, Yu Zhang, et al.

图生视频

视频生成

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

LLM

Agent

Yuwen Du, Rui Ye, Shuo Tang, et al.

偏好

LLM

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

多模态

视觉问答

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

目标跟踪

视频理解

Tiedong Liu, Wee Sun Lee

多模态

扩散模型

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

代码生成

Agent

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

多模态

统一多模态

Yichen Zhang, Da Peng, Zonghao Guo, et al.

基准

检索增强生成

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

文生视频

视频生成

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

SAMA：面向指令驱动视频编辑的因子化语义锚定与运动对齐

生成模型感知空间：释放隐式3D先验以增强场景理解

高效推理与平衡思维

行动前审视：增强面向视觉 - 语言 - 动作模型的视觉基础表征

互补强化学习

对齐使语言模型具备规范性，而非描述性。

MosaicMem：用于可控视频世界模型的混合空间记忆机制

MetaClaw：仅需对话——一种在开放环境中进行元学习并持续演化的 Agent

Video-CoE：通过事件链增强视频事件预测

FunCineForge：面向多样化电影场景的零样本电影配音统一数据集工具包与模型

面向 Large Language Models 的 In-Context Watermarks

WorldCam：以相机姿态为统一几何表示的交互式自回归3D游戏世界

揭秘视频推理

Kinema4D：面向时空具身模拟的运动学四维世界建模

Qianfan-OCR：一种面向文档智能的统一端到端模型

InCoder-32B：面向工业场景的代码基础模型

MiroThinker-1.7 与 H1：迈向基于验证的重型研究 Agent

HSImul3R：物理在环的人机场景交互重建，生成仿真就绪数据

深度混合注意力

注意力残差

将世界模拟模型锚定于真实世界大都市

OpenSeeker：通过完全开源训练数据，推动前沿搜索 Agent 的民主化

人工智能能够习得科学品味

MM-CondChain：用于视觉推理的深度组合能力程序化验证基准

视觉 - 语言模型能否破解“三仙归洞”难题？

OmniForcing：释放实时音视频联合生成能力

daVinci-Env：大规模开源软件工程环境合成

Cheers：解耦图像块细节与语义表示，实现统一的多模态理解与生成

LMEB：长程记忆嵌入基准测试

DreamVideo-Omni：通过潜在身份强化学习实现全动作控制的多主体视频定制

SAMA：面向指令驱动视频编辑的因子化语义锚定与运动对齐

生成模型感知空间：释放隐式3D先验以增强场景理解

高效推理与平衡思维

行动前审视：增强面向视觉 - 语言 - 动作模型的视觉基础表征

互补强化学习

对齐使语言模型具备规范性，而非描述性。

MosaicMem：用于可控视频世界模型的混合空间记忆机制

MetaClaw：仅需对话——一种在开放环境中进行元学习并持续演化的 Agent

Video-CoE：通过事件链增强视频事件预测

FunCineForge：面向多样化电影场景的零样本电影配音统一数据集工具包与模型

面向 Large Language Models 的 In-Context Watermarks

WorldCam：以相机姿态为统一几何表示的交互式自回归3D游戏世界

揭秘视频推理

Kinema4D：面向时空具身模拟的运动学四维世界建模

Qianfan-OCR：一种面向文档智能的统一端到端模型

InCoder-32B：面向工业场景的代码基础模型

MiroThinker-1.7 与 H1：迈向基于验证的重型研究 Agent

HSImul3R：物理在环的人机场景交互重建，生成仿真就绪数据

深度混合注意力

注意力残差

将世界模拟模型锚定于真实世界大都市

OpenSeeker：通过完全开源训练数据，推动前沿搜索 Agent 的民主化

人工智能能够习得科学品味

MM-CondChain：用于视觉推理的深度组合能力程序化验证基准

视觉 - 语言模型能否破解“三仙归洞”难题？

OmniForcing：释放实时音视频联合生成能力

daVinci-Env：大规模开源软件工程环境合成

Cheers：解耦图像块细节与语义表示，实现统一的多模态理解与生成

LMEB：长程记忆嵌入基准测试

DreamVideo-Omni：通过潜在身份强化学习实现全动作控制的多主体视频定制

Command Palette

论文

Command Palette

论文

Command Palette

论文