HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
TOOLACE:在 LLM 函数调用中胜出
LLM
监督式微调
Weiwen Liu, Xu Huang, Xingshan Zeng, et al.
LightMover:具备颜色与强度控制的生成式光照运动
图生图
扩散模型
Gengze Zhou, Tianyu Wang, Soo Ye Kim, et al.
基于强化学习与对手位姿估计的自主超车轨迹优化
自动驾驶
强化学习
Matej Rene Cihlar, Luka Šiktar, Branimir Ćaran, et al.
Make It Up:合成图像在广义少样本语义分割中的真实收益
扩散模型
语义分割
Guohuan Xie, Xin He, Dingying Fan, et al.
面向基于 LLM 的多说话人语音识别的基于门控交叉注意力适配器的两阶段声学自适应方法
LLM
音频识别
Hao Shi, Yuan Gao, Xugang Lu, et al.
手术人工智能比较研究:数据集、基础模型与医疗通用人工智能的障碍
多模态
医学影像
Kirill Skobelev, Eric Fithian, Yegor Baranovski, et al.
文本数据集成
自然语言处理
Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, et al.
基于流匹配的无数字统一文本到动作生成
多模态
扩散模型
Guanhe Huang, Oya Celiktutan
SEAR:基于模式的 LLM 网关评估与路由
LLM
文本生成
Zecheng Zhang, Han Zheng, Yue Xu
面向扩散 Transformer 中丰富多样性的上下文空间即时排斥机制
文生图
扩散模型
Omer Dahary, Benaya Koren, Daniel Garibi, et al.
EpochX:构建涌现智能体文明的基础设施
Agent
LLM
Huacan Wang, Chaofa Yuan, Xialie Zhuang, et al.
TAPS:面向推测采样的任务感知提议分布
LLM
文本生成
Mohamad Zbib, Mohamad Bazzi, Ammar Mohanna, et al.
具有推理轨迹的长尾驾驶场景:KITScenes 长尾数据集
自动驾驶
多模态
Royden Wagner, Omer Sahin Tas, Jaime Villa, et al.
RealChart2Code:基于真实数据与多任务评估推进图表到代码生成研究
代码生成
多模态
Jiajun Zhang, Yuying Li, Zhixun Li, et al.
Trace2Skill:将轨迹局部经验蒸馏为可迁移的 Agent 技能
LLM
Agent
Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.
PackForcing:短视频训练足以支持长视频采样与长上下文推理
视频生成
扩散模型
Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.
ShotStream:面向交互式叙事的流式多镜头视频生成
文生视频
视频生成
Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.
视而不见,心却不忘:面向动态视频世界模型的混合记忆机制
视频生成
目标跟踪
Kaijin Chen, Dingkang Liang, Xin Zhou, et al.
BeSafe-Bench:揭示功能化环境中具身智能体的行为安全风险
Agent
多模态
Yuxuan Li, Yi Lin, Peng Wang, et al.
世界推理竞技场
Agent
基准
Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.
MSA:面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制
检索增强生成
LLM
Yu Chen, Runkai Chen, Sheng Yi, et al.
Voxtral TTS
语音生成
音频生成
Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.
RealRestorer:面向基于大规模图像编辑模型的通用真实世界图像复原
扩散模型
图生图
Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.
Calibri:通过参数高效校准增强 Diffusion Transformer
扩散模型
文生图
Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.
Intern-S1-Pro:万亿级科学多模态基础模型
多模态
AI for Science
Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.
PixelSmile:迈向细粒度面部表情编辑
扩散模型
图生图
Jiabin Hua, Hengyuan Xu, Aojie Li, et al.
Claudini:通过自动研究发掘针对 LLMs 的最先进对抗攻击算法
LLM
DeepSeek
Alexander Panfilov, Peter Romov, Igor Shilov, et al.
AutoHarness:通过自动合成代码桩提升 LLM Agents 性能
LLM
代码生成
Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.
GameplayQA:用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架
视频理解
视觉问答
Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.
为何自蒸馏(有时)会削弱 LLMs 的推理能力?
LLM
推理
Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.
UI-Voyager:一种基于失败经验进行自我演进的 GUI Agent
多模态
Agent
Zichuan Lin, Feiyu Liu, Yijun Yang, et al.
T-MAP:基于轨迹感知的进化搜索对 LLM Agent 进行红队测试
LLM
Agent
Hyomin Lee, Sangwoo Park, Yumin Choi, et al.
1
2
3
4
57
TOOLACE:在 LLM 函数调用中胜出
LLM
监督式微调
Weiwen Liu, Xu Huang, Xingshan Zeng, et al.
LightMover:具备颜色与强度控制的生成式光照运动
图生图
扩散模型
Gengze Zhou, Tianyu Wang, Soo Ye Kim, et al.
基于强化学习与对手位姿估计的自主超车轨迹优化
自动驾驶
强化学习
Matej Rene Cihlar, Luka Šiktar, Branimir Ćaran, et al.
Make It Up:合成图像在广义少样本语义分割中的真实收益
扩散模型
语义分割
Guohuan Xie, Xin He, Dingying Fan, et al.
面向基于 LLM 的多说话人语音识别的基于门控交叉注意力适配器的两阶段声学自适应方法
LLM
音频识别
Hao Shi, Yuan Gao, Xugang Lu, et al.
手术人工智能比较研究:数据集、基础模型与医疗通用人工智能的障碍
多模态
医学影像
Kirill Skobelev, Eric Fithian, Yegor Baranovski, et al.
文本数据集成
自然语言处理
Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, et al.
基于流匹配的无数字统一文本到动作生成
多模态
扩散模型
Guanhe Huang, Oya Celiktutan
SEAR:基于模式的 LLM 网关评估与路由
LLM
文本生成
Zecheng Zhang, Han Zheng, Yue Xu
面向扩散 Transformer 中丰富多样性的上下文空间即时排斥机制
文生图
扩散模型
Omer Dahary, Benaya Koren, Daniel Garibi, et al.
EpochX:构建涌现智能体文明的基础设施
Agent
LLM
Huacan Wang, Chaofa Yuan, Xialie Zhuang, et al.
TAPS:面向推测采样的任务感知提议分布
LLM
文本生成
Mohamad Zbib, Mohamad Bazzi, Ammar Mohanna, et al.
具有推理轨迹的长尾驾驶场景:KITScenes 长尾数据集
自动驾驶
多模态
Royden Wagner, Omer Sahin Tas, Jaime Villa, et al.
RealChart2Code:基于真实数据与多任务评估推进图表到代码生成研究
代码生成
多模态
Jiajun Zhang, Yuying Li, Zhixun Li, et al.
Trace2Skill:将轨迹局部经验蒸馏为可迁移的 Agent 技能
LLM
Agent
Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.
PackForcing:短视频训练足以支持长视频采样与长上下文推理
视频生成
扩散模型
Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.
ShotStream:面向交互式叙事的流式多镜头视频生成
文生视频
视频生成
Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.
视而不见,心却不忘:面向动态视频世界模型的混合记忆机制
视频生成
目标跟踪
Kaijin Chen, Dingkang Liang, Xin Zhou, et al.
BeSafe-Bench:揭示功能化环境中具身智能体的行为安全风险
Agent
多模态
Yuxuan Li, Yi Lin, Peng Wang, et al.
世界推理竞技场
Agent
基准
Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.
MSA:面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制
检索增强生成
LLM
Yu Chen, Runkai Chen, Sheng Yi, et al.
Voxtral TTS
语音生成
音频生成
Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.
RealRestorer:面向基于大规模图像编辑模型的通用真实世界图像复原
扩散模型
图生图
Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.
Calibri:通过参数高效校准增强 Diffusion Transformer
扩散模型
文生图
Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.
Intern-S1-Pro:万亿级科学多模态基础模型
多模态
AI for Science
Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.
PixelSmile:迈向细粒度面部表情编辑
扩散模型
图生图
Jiabin Hua, Hengyuan Xu, Aojie Li, et al.
Claudini:通过自动研究发掘针对 LLMs 的最先进对抗攻击算法
LLM
DeepSeek
Alexander Panfilov, Peter Romov, Igor Shilov, et al.
AutoHarness:通过自动合成代码桩提升 LLM Agents 性能
LLM
代码生成
Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.
GameplayQA:用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架
视频理解
视觉问答
Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.
为何自蒸馏(有时)会削弱 LLMs 的推理能力?
LLM
推理
Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.
UI-Voyager:一种基于失败经验进行自我演进的 GUI Agent
多模态
Agent
Zichuan Lin, Feiyu Liu, Yijun Yang, et al.
T-MAP:基于轨迹感知的进化搜索对 LLM Agent 进行红队测试
LLM
Agent
Hyomin Lee, Sangwoo Park, Yumin Choi, et al.
1
2
3
4
57