HyperAI超神经

从技能到人才：组织异质代理作为真实世界的公司

Agent

LLM

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: 强化三维约束以实现文生视频生成

文生视频

视频生成

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

视频生成

视频处理

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter：面向自动摄影图像编辑的统一推理、生成与优化框架

图生图

图像理解

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

智能问答

文档理解

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

Agent

基准

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

Ze Chen, Lan Chen, Yuanhang Li, et al.

LLM

深度学习

Difan Jiao, Yilun Liu, Ye Yuan, et al.

扩散模型

医学影像

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agent

AI for Science

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

LLM

模型训练

Decoupled DiLoCo Team

EVENT TENSOR：一种用于编译动态 MEGAKERNEL 的统一抽象方式

AI 编译器

LLM

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

视频生成

视频理解

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Agent

LLM

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

人脸识别

图像识别

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

多模态表征

视频生成

Boyu Chen, Yi Chen, Lu Qiu, et al.

图生视频

视频生成

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

多模态

LLM

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

图像生成

图像理解

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

多模态

统一多模态

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

文生视频

视频生成

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

LLM

多模态

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

Agent

监督式微调

Venus Team, Sunhao Dai, Yong Deng, et al.

强化学习

模型训练

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

扩散模型

多模态

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct：面向生物医学自然语言处理的 Large Language Models 指令微调研究

监督式微调

LLM

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

多模态

统一多模态

Logics Team

从技能到人才：组织异质代理作为真实世界的公司

Agent

LLM

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: 强化三维约束以实现文生视频生成

文生视频

视频生成

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

视频生成

视频处理

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

图生图

图像理解

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

智能问答

文档理解

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

Agent

基准

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

Ze Chen, Lan Chen, Yuanhang Li, et al.

LLM

深度学习

Difan Jiao, Yilun Liu, Ye Yuan, et al.

扩散模型

医学影像

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agent

AI for Science

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

LLM

模型训练

Decoupled DiLoCo Team

AI 编译器

LLM

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

视频生成

视频理解

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Agent

LLM

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

人脸识别

图像识别

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

多模态表征

视频生成

Boyu Chen, Yi Chen, Lu Qiu, et al.

图生视频

视频生成

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

多模态

LLM

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

图像生成

图像理解

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

多模态

统一多模态

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

文生视频

视频生成

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

LLM

多模态

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

Agent

监督式微调

Venus Team, Sunhao Dai, Yong Deng, et al.

强化学习

模型训练

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

扩散模型

多模态

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

监督式微调

LLM

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

多模态

统一多模态

Logics Team

基于语义进展函数的视频分析与生成

SmartPhotoCrafter：面向自动摄影图像编辑的统一推理、生成与优化框架

上下文永远不够长：针对大规模长文档集的结构化推理可扩展问答研究

AgentSearchBench：一种针对野外场景下 AI agent 搜索能力的基准测试

FlowAnchor：通过稳定编辑信号实现无反转视频编辑

从内部视角审视 LLM 安全性：利用内部表示检测有害内容

DiffNR：用于稀疏视图 3D 断层扫描重建的扩散增强神经表示优化

Agentic 世界建模：基础、能力、定律及其延伸

用于增强鲁棒性分布式预训练的解耦 DiLoCo 方法

EVENT TENSOR：一种用于编译动态 MEGAKERNEL 的统一抽象方式

见速与见缓：学习视频中的时间流转

面向长程任务的 LLM 决策与技能库 agents 协同演化研究

StyleID：一种用于风格无关的人脸身份识别的感知感知数据集与度量指标

UniT：迈向人类到人形机器人策略学习与世界建模的统一物理语言

WorldMark：一个用于交互式视频世界模型的统一基准测试套件

LLaTiSA：迈向从视觉感知到语义的难度分层时间序列推理

图像生成器是通用视觉学习者

LongCat-Next：将模态词汇化为离散 tokens

FIPO：通过 Future-KL 影响下的 Policy Optimization 激发深度推理能力

通过强化学习中组级自然语言反馈进行 Bootstrapping 探索

SocialOmni：评估 Omni Models 在视听社交交互中的表现

DeepSeek-V4：迈向高效的 Million-Token 上下文智能

从生成式视角探索空间智能

DeVI：通过合成视频模仿实现基于物理的灵巧人机交互

大模型时代的奖励作弊（Reward Hacking）：机制、涌现性失调与挑战

DR-Venus：仅需 1 万条开源数据，迈向前沿边缘规模深度研究 agent

近未来策略优化

LLaDA2.0-Uni：通过扩散大语言模型统一多模态理解与生成

BioInstruct：面向生物医学自然语言处理的 Large Language Models 指令微调研究

Logics-Parsing-Omni 技术报告

基于语义进展函数的视频分析与生成

SmartPhotoCrafter：面向自动摄影图像编辑的统一推理、生成与优化框架

上下文永远不够长：针对大规模长文档集的结构化推理可扩展问答研究

AgentSearchBench：一种针对野外场景下 AI agent 搜索能力的基准测试

FlowAnchor：通过稳定编辑信号实现无反转视频编辑

从内部视角审视 LLM 安全性：利用内部表示检测有害内容

DiffNR：用于稀疏视图 3D 断层扫描重建的扩散增强神经表示优化

Agentic 世界建模：基础、能力、定律及其延伸

用于增强鲁棒性分布式预训练的解耦 DiLoCo 方法

EVENT TENSOR：一种用于编译动态 MEGAKERNEL 的统一抽象方式

见速与见缓：学习视频中的时间流转

面向长程任务的 LLM 决策与技能库 agents 协同演化研究

StyleID：一种用于风格无关的人脸身份识别的感知感知数据集与度量指标

UniT：迈向人类到人形机器人策略学习与世界建模的统一物理语言

WorldMark：一个用于交互式视频世界模型的统一基准测试套件

LLaTiSA：迈向从视觉感知到语义的难度分层时间序列推理

图像生成器是通用视觉学习者

LongCat-Next：将模态词汇化为离散 tokens

FIPO：通过 Future-KL 影响下的 Policy Optimization 激发深度推理能力

通过强化学习中组级自然语言反馈进行 Bootstrapping 探索

SocialOmni：评估 Omni Models 在视听社交交互中的表现

DeepSeek-V4：迈向高效的 Million-Token 上下文智能

从生成式视角探索空间智能

DeVI：通过合成视频模仿实现基于物理的灵巧人机交互

大模型时代的奖励作弊（Reward Hacking）：机制、涌现性失调与挑战

DR-Venus：仅需 1 万条开源数据，迈向前沿边缘规模深度研究 agent

近未来策略优化

LLaDA2.0-Uni：通过扩散大语言模型统一多模态理解与生成

BioInstruct：面向生物医学自然语言处理的 Large Language Models 指令微调研究

Logics-Parsing-Omni 技术报告

Command Palette

论文

Command Palette

论文

Command Palette

论文