HyperAI超神经

Benchmark^2：LLM基准测试的系统性评估

LLM

数据集

Qi Qian, Chengsong Huang, Jingwen Xu, et al.

MindWatcher：迈向更智能的多模态工具融合推理

Agent

推理

Jiawei Chen, Xintian Shen, Lihao Zheng, et al.

监督式微调

LLM

Muxi Diao, Lele Yang, Wuxuan Gong, et al.

强化学习

监督式微调

Haoyuan Wu, Hai Wang, Jiajia Wu, et al.

Agent

代码生成

Sherman Wong, Zhenting Qi, Zhaodong Wang, et al.

图生视频

视频处理

Mengtian Li, Jinshu Chen, Songtao Zhao, et al.

文生图

图像生成

Ruiyan Han, Zhen Fang, XinYu Sun, et al.

文生视频

扩散模型

Yoav HaCohen, Benny Brazowski, Nisan Chiprut, et al.

基准

开源

Yiheng Wang, Yixin Chen, Shuo Li, et al.

音频和语音处理

LLM

Donghua Yu, Zhengyuan Lin, Chen Yang, et al.

深度估计

机器视觉 3D

Hao Yu, Haotong Lin, Jiawei Wang, et al.

Agent

推理

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, et al.

机器人技术

具身智能

Boyuan Chen, Tianyuan Zhang, Haoran Geng, et al.

建筑

机器视觉 3D

Shuai Yuan, Yantai Yang, Xiaotian Yang, et al.

强化学习

扩散模型

Haoran He, Yuxiao Ye, Jie Liu, et al.

强化学习

扩散模型

Shikun Sun, Liao Qu, Huichao Zhang, et al.

DreamID-V：通过扩散Transformer弥合图像到视频的鸿沟实现高保真人脸替换

图生视频

扩散模型

Xu Guo, Fulong Ye, Xinghui Li, et al.

文生图

图像生成

Huichao Zhang, Liao Qu, Yiheng Liu, et al.

LLM

文本生成

Eunbi Choi, Kibong Choi, Seokhee Hong, et al.

Agent

LLM

Xinbei Ma, Ruotian Ma, Xingyu Chen, et al.

Agent

推理

Shashwat Goel, Rishi Hazra, Dulhan Jayalath, et al.

机器视觉 3D

深度估计

Jiewen Chan, Zhenjun Zhao, Yu-Lun Liu

扩散模型

视频理解

Zhe Huang, Hao Wen, Aiming Hao, et al.

Agent

多模态表征

Yong Xien Chng, Tao Hu, Wenwen Tong, et al.

人机交互

具身智能

Taekyung Ki, Sangwon Jang, Jaehyeong Jo, et al.

视频生成

3D 模型

Yuxue Yang, Lue Fan, Ziqi Shi, et al.

Agent

LLM

Yuchen Shi, Yuzheng Cai, Siqi Cai, et al.

代码生成

Agent

Jian Yang, Wei Zhang, Shawn Guo, et al.

LLM

Agent

Alex L. Zhang, Tim Kraska, Omar Khattab

视频生成

扩散模型

Jibin Song, Mingi Kwon, Jaeseok Jeong, et al.

视频生成

机器人技术

Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, et al.

扩散模型

LLM

Ziqi Jin, Bin Wang, Xiang Lin, et al.

Benchmark^2：LLM基准测试的系统性评估

LLM

数据集

Qi Qian, Chengsong Huang, Jingwen Xu, et al.

MindWatcher：迈向更智能的多模态工具融合推理

Agent

推理

Jiawei Chen, Xintian Shen, Lihao Zheng, et al.

监督式微调

LLM

Muxi Diao, Lele Yang, Wuxuan Gong, et al.

强化学习

监督式微调

Haoyuan Wu, Hai Wang, Jiajia Wu, et al.

Agent

代码生成

Sherman Wong, Zhenting Qi, Zhaodong Wang, et al.

图生视频

视频处理

Mengtian Li, Jinshu Chen, Songtao Zhao, et al.

文生图

图像生成

Ruiyan Han, Zhen Fang, XinYu Sun, et al.

文生视频

扩散模型

Yoav HaCohen, Benny Brazowski, Nisan Chiprut, et al.

基准

开源

Yiheng Wang, Yixin Chen, Shuo Li, et al.

音频和语音处理

LLM

Donghua Yu, Zhengyuan Lin, Chen Yang, et al.

深度估计

机器视觉 3D

Hao Yu, Haotong Lin, Jiawei Wang, et al.

Agent

推理

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, et al.

机器人技术

具身智能

Boyuan Chen, Tianyuan Zhang, Haoran Geng, et al.

建筑

机器视觉 3D

Shuai Yuan, Yantai Yang, Xiaotian Yang, et al.

强化学习

扩散模型

Haoran He, Yuxiao Ye, Jie Liu, et al.

强化学习

扩散模型

Shikun Sun, Liao Qu, Huichao Zhang, et al.

图生视频

扩散模型

Xu Guo, Fulong Ye, Xinghui Li, et al.

文生图

图像生成

Huichao Zhang, Liao Qu, Yiheng Liu, et al.

LLM

文本生成

Eunbi Choi, Kibong Choi, Seokhee Hong, et al.

Agent

LLM

Xinbei Ma, Ruotian Ma, Xingyu Chen, et al.

Agent

推理

Shashwat Goel, Rishi Hazra, Dulhan Jayalath, et al.

机器视觉 3D

深度估计

Jiewen Chan, Zhenjun Zhao, Yu-Lun Liu

扩散模型

视频理解

Zhe Huang, Hao Wen, Aiming Hao, et al.

Agent

多模态表征

Yong Xien Chng, Tao Hu, Wenwen Tong, et al.

人机交互

具身智能

Taekyung Ki, Sangwon Jang, Jaehyeong Jo, et al.

视频生成

3D 模型

Yuxue Yang, Lue Fan, Ziqi Shi, et al.

Agent

LLM

Yuchen Shi, Yuzheng Cai, Siqi Cai, et al.

代码生成

Agent

Jian Yang, Wei Zhang, Shawn Guo, et al.

LLM

Agent

Alex L. Zhang, Tim Kraska, Omar Khattab

视频生成

扩散模型

Jibin Song, Mingi Kwon, Jaeseok Jeong, et al.

视频生成

机器人技术

Karthik Dharmarajan, Wenlong Huang, Jiajun Wu, et al.

扩散模型

LLM

Ziqi Jin, Bin Wang, Xiang Lin, et al.

熵自适应微调：通过解决自信冲突以缓解遗忘

多样性还是精确性？深入探究下一个token预测

孔子代码Agent：面向真实代码库的可扩展Agent框架

DreamStyle：一种统一的视频风格化框架

UniCorn：通过自生成监督实现自我提升的统一多模态模型

LTX-2：高效联合音视频基础模型

SciEvalKit：面向科学通用智能的开源评估工具包

MOSS 语音转写与说话人分离：支持说话人分离的精准语音转写

InfiniDepth：基于神经隐式场的任意分辨率与细粒度深度估计

代理型AI的适应性调整

大型视频规划器实现可泛化的机器人控制

InfiniteVGGT：面向无限数据流的视觉几何基底Transformer

GARDO：防止奖励劫持的扩散模型强化方法

VAR RL 正确实现：应对视觉自回归生成中的异步策略冲突

DreamID-V：通过扩散Transformer弥合图像到视频的鸿沟实现高保真人脸替换

NextFlow：统一的序列建模激活多模态理解与生成

K-EXAONE 技术报告

Hunger Game Debate：多智能体系统中过度竞争的涌现

使用评分标准奖励训练AI协作者科学家

AdaGaR：面向动态场景重建的自适应Gabor表示

驯服幻觉：通过反事实视频生成提升MLLMs的视频理解能力

SenseNova-MARS：通过强化学习赋能多模态智能体推理与搜索

Avatar Forcing：面向自然对话的实时交互式头部虚拟形象生成

NeoVerse：利用真实场景单目视频增强4D世界模型

Youtu-Agent：基于自动化生成与混合策略优化的Agent生产率提升

IQuest-Coder-V1 技术报告

递归语言模型

FlowBlending：面向快速高保真视频生成的阶段感知多模型采样

Dream2Flow：基于3D物体流连接视频生成与开放世界操控

扩散LLM中的离散性作用

熵自适应微调：通过解决自信冲突以缓解遗忘

多样性还是精确性？深入探究下一个token预测

孔子代码Agent：面向真实代码库的可扩展Agent框架

DreamStyle：一种统一的视频风格化框架

UniCorn：通过自生成监督实现自我提升的统一多模态模型

LTX-2：高效联合音视频基础模型

SciEvalKit：面向科学通用智能的开源评估工具包

MOSS 语音转写与说话人分离：支持说话人分离的精准语音转写

InfiniDepth：基于神经隐式场的任意分辨率与细粒度深度估计

代理型AI的适应性调整

大型视频规划器实现可泛化的机器人控制

InfiniteVGGT：面向无限数据流的视觉几何基底Transformer

GARDO：防止奖励劫持的扩散模型强化方法

VAR RL 正确实现：应对视觉自回归生成中的异步策略冲突

DreamID-V：通过扩散Transformer弥合图像到视频的鸿沟实现高保真人脸替换

NextFlow：统一的序列建模激活多模态理解与生成

K-EXAONE 技术报告

Hunger Game Debate：多智能体系统中过度竞争的涌现

使用评分标准奖励训练AI协作者科学家

AdaGaR：面向动态场景重建的自适应Gabor表示

驯服幻觉：通过反事实视频生成提升MLLMs的视频理解能力

SenseNova-MARS：通过强化学习赋能多模态智能体推理与搜索

Avatar Forcing：面向自然对话的实时交互式头部虚拟形象生成

NeoVerse：利用真实场景单目视频增强4D世界模型

Youtu-Agent：基于自动化生成与混合策略优化的Agent生产率提升

IQuest-Coder-V1 技术报告

递归语言模型

FlowBlending：面向快速高保真视频生成的阶段感知多模型采样

Dream2Flow：基于3D物体流连接视频生成与开放世界操控

扩散LLM中的离散性作用

Command Palette

论文

Command Palette

论文

Command Palette

论文