HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
OmniSVG:一种统一的可扩展矢量图形生成模型
图像生成
文生图
Yiying Yang, Wei Cheng, Sijin Chen, et al.
算法思维理论
推理
LLM
MohammadHossein Bateni, Vincent Cohen-Addad, Yuzhou Gu, et al.
机器人世界模型:用于机器人鲁棒策略优化的神经网络模拟器
机器人技术
强化学习
Chenhao Li, Andreas Krause, Marco Hutter
奖励强制:基于奖励分布匹配蒸馏的高效流式视频生成
视频生成
扩散模型
Yunhong Lu, Yanhong Zeng, Haobo Li, et al.
语义引领方向:通过异步潜在扩散实现语义与纹理建模的协同
扩散模型
图像生成
Yueming Pan, Ruoyu Feng, Qi Dai, et al.
ARM-Thinker:通过智能体工具使用与视觉推理强化多模态生成式奖励模型
Agent
偏好
Shengyuan Ding, Xinyu Fang, Ziyu Liu, et al.
Nex-N1:通过统一生态系统训练的智能体模型,用于大规模环境构建
Agent
LLM
Nex-AGI Team, Yuxuan Cai, Lu Chen, et al.
DAComp:面向数据智能全生命周期的数据Agent基准测试
基准
Agent
Fangyu Lei, Jinxiang Meng, Yiming Huang, et al.
实时虚拟形象:基于实时音频驱动的无限长度虚拟形象生成
扩散模型
合成
Yubo Huang, Hailong Guo, Fangtai Wu, et al.
F5-TTS:一种通过流匹配实现流畅且忠实语音伪造的童话讲述者
语音生成
Transformer
Yushen Chen, Zhikang Niu, Ziyang Ma, et al.
VOccl3D:一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集
视频理解
目标检测
Yash Garg, Saketh Bachu, Arindam Dutta, et al.
Alpamayo-R1:面向长尾场景下可泛化的自动驾驶,连接推理与行为预测
推理
强化学习
NVIDIA, Yulong Cao, Tong Che, et al.
环环相扣:一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅
神经网络
Transformer
Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.
重新思考文本到视觉生成中推理时扩展的提示设计
文生图
扩散模型
Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.
作为反探索的视觉-语言-动作模型引导:一种测试时扩展方法
统一多模态
监督式微调
Siyuan Yang, Yang Zhang, Haoran He, et al.
OneThinker:面向图像与视频的全功能推理模型
视觉问答
多任务学习
Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.
ViDiC:视频差异描述
视频描述
多模态
Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.
PretrainZero:强化主动预训练
强化学习
推理
Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.
每个Token都至关重要:在大型语言模型中泛化16M超长上下文
LLM
Transformer
Xiang Hu, Zhanchao Zhou, Ruiqi Liang, et al.
SimScale:通过大规模真实世界仿真学习驾驶
自动驾驶
合成
Haochen Tian, Tianyu Li, Haochen Liu, et al.
Skywork-R1V4:通过图像与DeepResearch的交织思维迈向智能多模态代理
Agent
检索增强生成
Yifan Zhang, Liang Hu, Haofeng Sun, et al.
基于最小人类监督的引导式自进化LLM
LLM
推理
Wenhao Yu, Zhenwen Liang, Chengsong Huang, et al.
MultiShotMaster:一种可控制的多镜头视频生成框架
视频生成
文生视频
Qinghe Wang, Xiaoyu Shi, Baolu Li, et al.
MG-Nav:通过稀疏空间记忆实现的双尺度视觉导航
计算机视觉
目标检测
Bo Wang, Jiehong Lin, Chenzhi Liu, et al.
一致性评论者:通过参考引导的注意力对齐修正生成图像中的不一致性
图生图
图像生成
Ziheng Ouyang, Yiren Song, Yaoli Liu, et al.
我们距离真正有用的深度研究Agent还有多远?
基准
数据集
Dingling Zhang, He Zhu, Jincheng Ren, et al.
基于LLM的强化学习稳定性优化:方法与实践
强化学习
LLM
Chujie Zheng, Kai Dang, Bowen Yu, et al.
Envision:面向因果世界过程洞察的统一理解与生成基准测试
文生图
统一多模态
Juanxi Tian, Siyuan Li, Conghui He, et al.
LongVT:通过原生工具调用激励“以长视频进行思考”
视频理解
视觉问答
Zuhao Yang, Sudong Wang, Kaichen Zhang, et al.
从代码基础模型到Agent与应用:代码智能实用指南
LLM
监督式微调
Jian Yang, Wei Zhang, Shark Liu, et al.
基于物理驱动的时空建模用于AI生成视频检测
视频理解
视频生成
Shuhai Zhang, ZiHao Lian, Jiahao Yang, et al.
Mem-α:通过强化学习学习记忆构建
强化学习
Agent
Yu Wang, Ryuichi Takanobu, Zhiqi Liang, et al.
1
11
12
13
14
15
16
17
50
OmniSVG:一种统一的可扩展矢量图形生成模型
图像生成
文生图
Yiying Yang, Wei Cheng, Sijin Chen, et al.
算法思维理论
推理
LLM
MohammadHossein Bateni, Vincent Cohen-Addad, Yuzhou Gu, et al.
机器人世界模型:用于机器人鲁棒策略优化的神经网络模拟器
机器人技术
强化学习
Chenhao Li, Andreas Krause, Marco Hutter
奖励强制:基于奖励分布匹配蒸馏的高效流式视频生成
视频生成
扩散模型
Yunhong Lu, Yanhong Zeng, Haobo Li, et al.
语义引领方向:通过异步潜在扩散实现语义与纹理建模的协同
扩散模型
图像生成
Yueming Pan, Ruoyu Feng, Qi Dai, et al.
ARM-Thinker:通过智能体工具使用与视觉推理强化多模态生成式奖励模型
Agent
偏好
Shengyuan Ding, Xinyu Fang, Ziyu Liu, et al.
Nex-N1:通过统一生态系统训练的智能体模型,用于大规模环境构建
Agent
LLM
Nex-AGI Team, Yuxuan Cai, Lu Chen, et al.
DAComp:面向数据智能全生命周期的数据Agent基准测试
基准
Agent
Fangyu Lei, Jinxiang Meng, Yiming Huang, et al.
实时虚拟形象:基于实时音频驱动的无限长度虚拟形象生成
扩散模型
合成
Yubo Huang, Hailong Guo, Fangtai Wu, et al.
F5-TTS:一种通过流匹配实现流畅且忠实语音伪造的童话讲述者
语音生成
Transformer
Yushen Chen, Zhikang Niu, Ziyang Ma, et al.
VOccl3D:一种用于真实遮挡下3D人体姿态与形状估计的视频基准数据集
视频理解
目标检测
Yash Garg, Saketh Bachu, Arindam Dutta, et al.
Alpamayo-R1:面向长尾场景下可泛化的自动驾驶,连接推理与行为预测
推理
强化学习
NVIDIA, Yulong Cao, Tong Che, et al.
环环相扣:一场关于测试时记忆、注意力偏差、保留与在线优化的探索之旅
神经网络
Transformer
Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.
重新思考文本到视觉生成中推理时扩展的提示设计
文生图
扩散模型
Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.
作为反探索的视觉-语言-动作模型引导:一种测试时扩展方法
统一多模态
监督式微调
Siyuan Yang, Yang Zhang, Haoran He, et al.
OneThinker:面向图像与视频的全功能推理模型
视觉问答
多任务学习
Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.
ViDiC:视频差异描述
视频描述
多模态
Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.
PretrainZero:强化主动预训练
强化学习
推理
Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.
每个Token都至关重要:在大型语言模型中泛化16M超长上下文
LLM
Transformer
Xiang Hu, Zhanchao Zhou, Ruiqi Liang, et al.
SimScale:通过大规模真实世界仿真学习驾驶
自动驾驶
合成
Haochen Tian, Tianyu Li, Haochen Liu, et al.
Skywork-R1V4:通过图像与DeepResearch的交织思维迈向智能多模态代理
Agent
检索增强生成
Yifan Zhang, Liang Hu, Haofeng Sun, et al.
基于最小人类监督的引导式自进化LLM
LLM
推理
Wenhao Yu, Zhenwen Liang, Chengsong Huang, et al.
MultiShotMaster:一种可控制的多镜头视频生成框架
视频生成
文生视频
Qinghe Wang, Xiaoyu Shi, Baolu Li, et al.
MG-Nav:通过稀疏空间记忆实现的双尺度视觉导航
计算机视觉
目标检测
Bo Wang, Jiehong Lin, Chenzhi Liu, et al.
一致性评论者:通过参考引导的注意力对齐修正生成图像中的不一致性
图生图
图像生成
Ziheng Ouyang, Yiren Song, Yaoli Liu, et al.
我们距离真正有用的深度研究Agent还有多远?
基准
数据集
Dingling Zhang, He Zhu, Jincheng Ren, et al.
基于LLM的强化学习稳定性优化:方法与实践
强化学习
LLM
Chujie Zheng, Kai Dang, Bowen Yu, et al.
Envision:面向因果世界过程洞察的统一理解与生成基准测试
文生图
统一多模态
Juanxi Tian, Siyuan Li, Conghui He, et al.
LongVT:通过原生工具调用激励“以长视频进行思考”
视频理解
视觉问答
Zuhao Yang, Sudong Wang, Kaichen Zhang, et al.
从代码基础模型到Agent与应用:代码智能实用指南
LLM
监督式微调
Jian Yang, Wei Zhang, Shark Liu, et al.
基于物理驱动的时空建模用于AI生成视频检测
视频理解
视频生成
Shuhai Zhang, ZiHao Lian, Jiahao Yang, et al.
Mem-α:通过强化学习学习记忆构建
强化学习
Agent
Yu Wang, Ryuichi Takanobu, Zhiqi Liang, et al.
1
11
12
13
14
15
16
17
50