HyperAI超神经

AutoHarness：通过自动合成代码 Harness 来提升 LLM Agents 的性能

LLM

代码生成

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

GameplayQA：用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架

视频理解

视觉问答

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

LLM

推理

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

多模态

Agent

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

LLM

Agent

Hyomin Lee, Sangwoo Park, Yumin Choi, et al.

视频理解

多模态

Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.

视频理解

多模态

Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.

扩散模型

图像修复

Brian Chao, Lior Yariv, Howard Xiao, et al.

Agent

视频理解

Shoubin Yu, Lei Shu, Antoine Yang, et al.

LLM

Agent

Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.

多模态

Agent

Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.

扩散模型

视频处理

Jaewon Min, Jaeeun Lee, Yeji Choi, et al.

视频理解

多模态

Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.

WildWorld：面向生成式 ARPG 的、具备动作与显式状态的大规模动态世界建模数据集

视频生成

动作识别

Zhen Li, Zian Meng, Shuwei Shi, et al.

MinerU-Diffusion：通过 Diffusion 解码将文档 OCR 重新构想为逆渲染

OCR

扩散模型

Hejun Dong, Junbo Niu, Bin Wang, et al.

PivotRL：低计算成本下的高精度 Agentic Post-Training

监督式微调

强化学习

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

F4Splat：面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法

3D 生成

3D 模型

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

多模态

多模态表征

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

视频理解

视觉问答

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LLM

推理

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

通义千问

多模态

SII-GAIR, Sand. ai, Ethan Chern, et al.

视频生成

3D 生成

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

音频生成

多模态

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

深度学习

多模态表征

Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.

3D 生成

多模态

Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.

文生视频

扩散模型

Jiazheng Xing, Fei Du, Hangjie Yuan, et al.

LLM

文本生成

Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.

多模态

视觉问答

Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.

多模态

视觉问答

Yan Shu, Bin Ren, Zhitong Xiong, et al.

视频生成

模型训练

Songchun Zhang, Zeyue Xue, Siming Fu, et al.

视觉问答

LLM

Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.

扩散模型

视频生成

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.

AutoHarness：通过自动合成代码 Harness 来提升 LLM Agents 的性能

LLM

代码生成

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

GameplayQA：用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架

视频理解

视觉问答

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

LLM

推理

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

多模态

Agent

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

LLM

Agent

Hyomin Lee, Sangwoo Park, Yumin Choi, et al.

视频理解

多模态

Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.

视频理解

多模态

Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.

扩散模型

图像修复

Brian Chao, Lior Yariv, Howard Xiao, et al.

Agent

视频理解

Shoubin Yu, Lei Shu, Antoine Yang, et al.

LLM

Agent

Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.

多模态

Agent

Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.

扩散模型

视频处理

Jaewon Min, Jaeeun Lee, Yeji Choi, et al.

视频理解

多模态

Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.

视频生成

动作识别

Zhen Li, Zian Meng, Shuwei Shi, et al.

OCR

扩散模型

Hejun Dong, Junbo Niu, Bin Wang, et al.

监督式微调

强化学习

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

3D 生成

3D 模型

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

多模态

多模态表征

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

视频理解

视觉问答

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LLM

推理

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

通义千问

多模态

SII-GAIR, Sand. ai, Ethan Chern, et al.

视频生成

3D 生成

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

音频生成

多模态

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

深度学习

多模态表征

Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.

3D 生成

多模态

Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.

文生视频

扩散模型

Jiazheng Xing, Fei Du, Hangjie Yuan, et al.

LLM

文本生成

Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.

多模态

视觉问答

Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.

多模态

视觉问答

Yan Shu, Bin Ren, Zhitong Xiong, et al.

视频生成

模型训练

Songchun Zhang, Zeyue Xue, Siming Fu, et al.

视觉问答

LLM

Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.

扩散模型

视频生成

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.

为何自蒸馏（有时）会削弱 LLMs 的推理能力？

UI-Voyager：一种基于失败经验进行自我演进的 GUI Agent

T-MAP：基于轨迹感知的进化搜索对 LLM Agent 进行红队测试

CUA-Suite：面向计算机使用 Agent 的大规模人工标注视频演示数据集

EVA：面向端到端视频 Agent 的高效强化学习

Foveated Diffusion：高效的空间自适应图像与视频生成

Ego2Web：一种基于第一视角视频的 Web Agent 基准测试

从静态模板到动态运行时图：LLM Agent 工作流优化综述

SpecEyes：通过推测性感知与规划加速代理式多模态LLM

DA-Flow：基于 Diffusion 模型的退化感知光流估计

PEARL：个性化流式视频理解模型

WildWorld：面向生成式 ARPG 的、具备动作与显式状态的大规模动态世界建模数据集

MinerU-Diffusion：通过 Diffusion 解码将文档 OCR 重新构想为逆渲染

PivotRL：低计算成本下的高精度 Agentic Post-Training

F4Splat：面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法

SpatialBoost：通过语言引导推理增强视觉表征

VideoDetective：通过外在查询与内在相关性进行线索挖掘以实现长视频理解

LongCat-Flash-Prover：通过智能体工具集成强化学习推进原生形式化推理

速度源于简约：一种用于快速音视频生成基础模型的单流架构

Omni-WorldBench：面向以交互为核心的世界模型综合评估

PrismAudio：面向视频到音频生成的分解式思维链与多维奖励机制

LeWorldModel：基于像素的稳定端到端联合嵌入预测架构

FlowScene：基于多模态图校正流的风格一致室内场景生成

LumosX：将任意身份与其属性关联以实现个性化视频生成

面向大语言模型的 Y Combinator：用 λ 演算解决长上下文退化问题

ProactiveBench：多模态大语言模型主动性基准测试

TerraScope：面向对地观测的像素级视觉推理

Astrolabe：为蒸馏自回归视频模型引导前向过程强化学习

HopChain：面向可泛化视觉 - 语言推理的多跳数据合成

弥合语义与运动学条件：基于 Diffusion 的离散运动 Tokenizer

为何自蒸馏（有时）会削弱 LLMs 的推理能力？

UI-Voyager：一种基于失败经验进行自我演进的 GUI Agent

T-MAP：基于轨迹感知的进化搜索对 LLM Agent 进行红队测试

CUA-Suite：面向计算机使用 Agent 的大规模人工标注视频演示数据集

EVA：面向端到端视频 Agent 的高效强化学习

Foveated Diffusion：高效的空间自适应图像与视频生成

Ego2Web：一种基于第一视角视频的 Web Agent 基准测试

从静态模板到动态运行时图：LLM Agent 工作流优化综述

SpecEyes：通过推测性感知与规划加速代理式多模态LLM

DA-Flow：基于 Diffusion 模型的退化感知光流估计

PEARL：个性化流式视频理解模型

WildWorld：面向生成式 ARPG 的、具备动作与显式状态的大规模动态世界建模数据集

MinerU-Diffusion：通过 Diffusion 解码将文档 OCR 重新构想为逆渲染

PivotRL：低计算成本下的高精度 Agentic Post-Training

F4Splat：面向前馈 3D Gaussian Splatting 的前馈预测性致密化方法

SpatialBoost：通过语言引导推理增强视觉表征

VideoDetective：通过外在查询与内在相关性进行线索挖掘以实现长视频理解

LongCat-Flash-Prover：通过智能体工具集成强化学习推进原生形式化推理

速度源于简约：一种用于快速音视频生成基础模型的单流架构

Omni-WorldBench：面向以交互为核心的世界模型综合评估

PrismAudio：面向视频到音频生成的分解式思维链与多维奖励机制

LeWorldModel：基于像素的稳定端到端联合嵌入预测架构

FlowScene：基于多模态图校正流的风格一致室内场景生成

LumosX：将任意身份与其属性关联以实现个性化视频生成

面向大语言模型的 Y Combinator：用 λ 演算解决长上下文退化问题

ProactiveBench：多模态大语言模型主动性基准测试

TerraScope：面向对地观测的像素级视觉推理

Astrolabe：为蒸馏自回归视频模型引导前向过程强化学习

HopChain：面向可泛化视觉 - 语言推理的多跳数据合成

弥合语义与运动学条件：基于 Diffusion 的离散运动 Tokenizer

Command Palette

论文

Command Palette

论文

Command Palette

论文