HyperAI超神经

Skywork-R1V4：通过图像与DeepResearch的交织思维迈向智能多模态代理

Agent

检索增强生成

Yifan Zhang, Liang Hu, Haofeng Sun, et al.

基于最小人类监督的引导式自进化LLM

LLM

推理

Wenhao Yu, Zhenwen Liang, Chengsong Huang, et al.

视频生成

文生视频

Qinghe Wang, Xiaoyu Shi, Baolu Li, et al.

计算机视觉

目标检测

Bo Wang, Jiehong Lin, Chenzhi Liu, et al.

图生图

图像生成

Ziheng Ouyang, Yiren Song, Yaoli Liu, et al.

基准

数据集

Dingling Zhang, He Zhu, Jincheng Ren, et al.

强化学习

LLM

Chujie Zheng, Kai Dang, Bowen Yu, et al.

文生图

统一多模态

Juanxi Tian, Siyuan Li, Conghui He, et al.

视频理解

视觉问答

Zuhao Yang, Sudong Wang, Kaichen Zhang, et al.

LLM

监督式微调

Jian Yang, Wei Zhang, Shark Liu, et al.

视频理解

视频生成

Shuhai Zhang, ZiHao Lian, Jiahao Yang, et al.

强化学习

Agent

Yu Wang, Ryuichi Takanobu, Zhiqi Liang, et al.

强化学习

Agent

Hongliang Lu, Yuhang Wen, Pengyu Cheng, et al.

LLM

代码生成

Zijian Zhang, Rong Wang, Shiyang Li, et al.

Transformer

神经网络

Zhiwei Hao, Jianyuan Guo, Li Shen, et al.

LLM

Transformer

Guangxuan Xiao, Junxian Guo, Kasra Mazaheri, et al.

计算机视觉

深度学习

Tianyi Wang, Harry Cheng, Ming-Hui Liu, et al.

LLM

推理

Jianli Zhao, Tingchen Fu, Rylan Schaeffer, et al.

扩散模型

文生图

Qiang Xiang, Shuang Sun, Binglei Li, et al.

机器视觉 3D

多模态

Rong Li, Yuhao Dong, Tianshuai Hu, et al.

多模态

视频理解

Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang

机器视觉 3D

机器人技术

Mattia Nardon, Mikel Mujika Agirre, Ander González Tomé, et al.

Agent

推理

Zeren Chen, Xiaoya Lu, Zhijie Zheng, et al.

DeepSeek

推理

DeepSeek-AI, Aixin Liu, Aoxue Mei, et al.

扩散模型

图像生成

Zhennan Chen, Junwei Zhu, Xu Chen, et al.

统一多模态

多任务学习

Dian Zheng, Manyuan Zhang, Hongyu Li, et al.

Transformer

图生视频

Zhenxiong Tan, Zeqing Wang, Xingyi Yang, et al.

视频生成

多模态

Zhizhou Zhong, Yicheng Ji, Zhe Kong, et al.

文生图

扩散模型

Fukun Yin, Shiyu Liu, Yucheng Han, et al.

Agent

基准

Karen Ullrich, Jingtong Su, Claudia Shi, et al.

统一多模态

多模态表征

Shuai Bai, Yuxuan Cai, Ruizhe Chen, et al.

多模态

多模态表征

Wenbo Hu, Jingli Lin, Yilin Long, et al.

Skywork-R1V4：通过图像与DeepResearch的交织思维迈向智能多模态代理

Agent

检索增强生成

Yifan Zhang, Liang Hu, Haofeng Sun, et al.

基于最小人类监督的引导式自进化LLM

LLM

推理

Wenhao Yu, Zhenwen Liang, Chengsong Huang, et al.

视频生成

文生视频

Qinghe Wang, Xiaoyu Shi, Baolu Li, et al.

计算机视觉

目标检测

Bo Wang, Jiehong Lin, Chenzhi Liu, et al.

图生图

图像生成

Ziheng Ouyang, Yiren Song, Yaoli Liu, et al.

基准

数据集

Dingling Zhang, He Zhu, Jincheng Ren, et al.

强化学习

LLM

Chujie Zheng, Kai Dang, Bowen Yu, et al.

文生图

统一多模态

Juanxi Tian, Siyuan Li, Conghui He, et al.

视频理解

视觉问答

Zuhao Yang, Sudong Wang, Kaichen Zhang, et al.

LLM

监督式微调

Jian Yang, Wei Zhang, Shark Liu, et al.

视频理解

视频生成

Shuhai Zhang, ZiHao Lian, Jiahao Yang, et al.

强化学习

Agent

Yu Wang, Ryuichi Takanobu, Zhiqi Liang, et al.

强化学习

Agent

Hongliang Lu, Yuhang Wen, Pengyu Cheng, et al.

LLM

代码生成

Zijian Zhang, Rong Wang, Shiyang Li, et al.

Transformer

神经网络

Zhiwei Hao, Jianyuan Guo, Li Shen, et al.

LLM

Transformer

Guangxuan Xiao, Junxian Guo, Kasra Mazaheri, et al.

计算机视觉

深度学习

Tianyi Wang, Harry Cheng, Ming-Hui Liu, et al.

LLM

推理

Jianli Zhao, Tingchen Fu, Rylan Schaeffer, et al.

扩散模型

文生图

Qiang Xiang, Shuang Sun, Binglei Li, et al.

机器视觉 3D

多模态

Rong Li, Yuhao Dong, Tianshuai Hu, et al.

多模态

视频理解

Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang

机器视觉 3D

机器人技术

Mattia Nardon, Mikel Mujika Agirre, Ander González Tomé, et al.

Agent

推理

Zeren Chen, Xiaoya Lu, Zhijie Zheng, et al.

DeepSeek

推理

DeepSeek-AI, Aixin Liu, Aoxue Mei, et al.

扩散模型

图像生成

Zhennan Chen, Junwei Zhu, Xu Chen, et al.

统一多模态

多任务学习

Dian Zheng, Manyuan Zhang, Hongyu Li, et al.

Transformer

图生视频

Zhenxiong Tan, Zeqing Wang, Xingyi Yang, et al.

视频生成

多模态

Zhizhou Zhong, Yicheng Ji, Zhe Kong, et al.

文生图

扩散模型

Fukun Yin, Shiyu Liu, Yucheng Han, et al.

Agent

基准

Karen Ullrich, Jingtong Su, Claudia Shi, et al.

统一多模态

多模态表征

Shuai Bai, Yuxuan Cai, Ruizhe Chen, et al.

多模态

多模态表征

Wenbo Hu, Jingli Lin, Yilin Long, et al.

MultiShotMaster：一种可控制的多镜头视频生成框架

MG-Nav：通过稀疏空间记忆实现的双尺度视觉导航

一致性评论者：通过参考引导的注意力对齐修正生成图像中的不一致性

我们距离真正有用的深度研究Agent还有多远？

基于LLM的强化学习稳定性优化：方法与实践

Envision：面向因果世界过程洞察的统一理解与生成基准测试

LongVT：通过原生工具调用激励“以长视频进行思考”

从代码基础模型到Agent与应用：代码智能实用指南

基于物理驱动的时空建模用于AI生成视频检测

Mem-α：通过强化学习学习记忆构建

搜索自对弈：在无监督条件下推进Agent能力的边界

CudaForge：一种支持硬件反馈的CUDA内核优化Agent框架

ScaleNet：通过增量参数扩展预训练神经网络

优化块注意力混合

分形取证：通过分形水印实现主动式深度伪造检测与定位

思维链劫持

InstanceAssemble：通过实例组装注意力实现布局感知的图像生成

3EED：在三维空间中处处实现万物具身化

DetectiumFire：一个全面的多模态数据集，连接视觉与语言以实现火灾理解

CHIP：工业场景中椅子6D位姿估计的多传感器数据集

几何约束Agent用于空间推理

DeepSeek-V3.2：推动开源大型语言模型的前沿

DiP：在像素空间中驯服扩散模型

架构解耦并非构建统一多模态模型的全部所需

大规模视觉桥接Transformer

AnyTalker：通过交互式优化实现多人物对话视频生成的扩展

REASONEDIT：面向推理增强的图像编辑模型

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

通义千问3-VL 技术报告

G $^2$ VLM：具有统一3D重建与空间推理能力的几何引导视觉语言模型

MultiShotMaster：一种可控制的多镜头视频生成框架

MG-Nav：通过稀疏空间记忆实现的双尺度视觉导航

一致性评论者：通过参考引导的注意力对齐修正生成图像中的不一致性

我们距离真正有用的深度研究Agent还有多远？

基于LLM的强化学习稳定性优化：方法与实践

Envision：面向因果世界过程洞察的统一理解与生成基准测试

LongVT：通过原生工具调用激励“以长视频进行思考”

从代码基础模型到Agent与应用：代码智能实用指南

基于物理驱动的时空建模用于AI生成视频检测

Mem-α：通过强化学习学习记忆构建

搜索自对弈：在无监督条件下推进Agent能力的边界

CudaForge：一种支持硬件反馈的CUDA内核优化Agent框架

ScaleNet：通过增量参数扩展预训练神经网络

优化块注意力混合

分形取证：通过分形水印实现主动式深度伪造检测与定位

思维链劫持

InstanceAssemble：通过实例组装注意力实现布局感知的图像生成

3EED：在三维空间中处处实现万物具身化

DetectiumFire：一个全面的多模态数据集，连接视觉与语言以实现火灾理解

CHIP：工业场景中椅子6D位姿估计的多传感器数据集

几何约束Agent用于空间推理

DeepSeek-V3.2：推动开源大型语言模型的前沿

DiP：在像素空间中驯服扩散模型

架构解耦并非构建统一多模态模型的全部所需

大规模视觉桥接Transformer

AnyTalker：通过交互式优化实现多人物对话视频生成的扩展

REASONEDIT：面向推理增强的图像编辑模型

OpenApps：通过模拟环境变化来衡量UI-Agent的可靠性

通义千问3-VL 技术报告

G $^2$ VLM：具有统一3D重建与空间推理能力的几何引导视觉语言模型

Command Palette

论文

Command Palette

论文

Command Palette

论文