HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务协议隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务协议隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

TOOLACE：在 LLM 函数调用中胜出

TOOLACE：在 LLM 函数调用中胜出

监督式微调

Weiwen Liu, Xu Huang, Xingshan Zeng, et al.

LightMover：具备颜色与强度控制的生成式光照运动

LightMover：具备颜色与强度控制的生成式光照运动

Gengze Zhou, Tianyu Wang, Soo Ye Kim, et al.

基于强化学习与对手位姿估计的自主超车轨迹优化

基于强化学习与对手位姿估计的自主超车轨迹优化

Matej Rene Cihlar, Luka Šiktar, Branimir Ćaran, et al.

Make It Up：合成图像在广义少样本语义分割中的真实收益

Make It Up：合成图像在广义少样本语义分割中的真实收益

Guohuan Xie, Xin He, Dingying Fan, et al.

面向基于 LLM 的多说话人语音识别的基于门控交叉注意力适配器的两阶段声学自适应方法

面向基于 LLM 的多说话人语音识别的基于门控交叉注意力适配器的两阶段声学自适应方法

Hao Shi, Yuan Gao, Xugang Lu, et al.

手术人工智能比较研究：数据集、基础模型与医疗通用人工智能的障碍

手术人工智能比较研究：数据集、基础模型与医疗通用人工智能的障碍

Kirill Skobelev, Eric Fithian, Yegor Baranovski, et al.

文本数据集成

文本数据集成

自然语言处理

Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, et al.

基于流匹配的无数字统一文本到动作生成

基于流匹配的无数字统一文本到动作生成

Guanhe Huang, Oya Celiktutan

SEAR：基于模式的 LLM 网关评估与路由

SEAR：基于模式的 LLM 网关评估与路由

Zecheng Zhang, Han Zheng, Yue Xu

面向扩散 Transformer 中丰富多样性的上下文空间即时排斥机制

面向扩散 Transformer 中丰富多样性的上下文空间即时排斥机制

Omer Dahary, Benaya Koren, Daniel Garibi, et al.

EpochX：构建涌现智能体文明的基础设施

EpochX：构建涌现智能体文明的基础设施

Huacan Wang, Chaofa Yuan, Xialie Zhuang, et al.

TAPS：面向推测采样的任务感知提议分布

TAPS：面向推测采样的任务感知提议分布

Mohamad Zbib, Mohamad Bazzi, Ammar Mohanna, et al.

具有推理轨迹的长尾驾驶场景：KITScenes 长尾数据集

具有推理轨迹的长尾驾驶场景：KITScenes 长尾数据集

Royden Wagner, Omer Sahin Tas, Jaime Villa, et al.

RealChart2Code：基于真实数据与多任务评估推进图表到代码生成研究

RealChart2Code：基于真实数据与多任务评估推进图表到代码生成研究

Jiajun Zhang, Yuying Li, Zhixun Li, et al.

Trace2Skill：将轨迹局部经验蒸馏为可迁移的 Agent 技能

Trace2Skill：将轨迹局部经验蒸馏为可迁移的 Agent 技能

Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.

PackForcing：短视频训练足以支持长视频采样与长上下文推理

PackForcing：短视频训练足以支持长视频采样与长上下文推理

Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.

ShotStream：面向交互式叙事的流式多镜头视频生成

ShotStream：面向交互式叙事的流式多镜头视频生成

Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.

视而不见，心却不忘：面向动态视频世界模型的混合记忆机制

视而不见，心却不忘：面向动态视频世界模型的混合记忆机制

Kaijin Chen, Dingkang Liang, Xin Zhou, et al.

BeSafe-Bench：揭示功能化环境中具身智能体的行为安全风险

BeSafe-Bench：揭示功能化环境中具身智能体的行为安全风险

Yuxuan Li, Yi Lin, Peng Wang, et al.

世界推理竞技场

世界推理竞技场

Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.

MSA：面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制

MSA：面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制

检索增强生成

Yu Chen, Runkai Chen, Sheng Yi, et al.

Voxtral TTS

Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.

RealRestorer：面向基于大规模图像编辑模型的通用真实世界图像复原

RealRestorer：面向基于大规模图像编辑模型的通用真实世界图像复原

Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.

Calibri：通过参数高效校准增强 Diffusion Transformer

Calibri：通过参数高效校准增强 Diffusion Transformer

Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.

Intern-S1-Pro：万亿级科学多模态基础模型

Intern-S1-Pro：万亿级科学多模态基础模型

Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.

PixelSmile：迈向细粒度面部表情编辑

PixelSmile：迈向细粒度面部表情编辑

Jiabin Hua, Hengyuan Xu, Aojie Li, et al.

Claudini：通过自动研究发掘针对 LLMs 的最先进对抗攻击算法

Claudini：通过自动研究发掘针对 LLMs 的最先进对抗攻击算法

Alexander Panfilov, Peter Romov, Igor Shilov, et al.

AutoHarness：通过自动合成代码桩提升 LLM Agents 性能

AutoHarness：通过自动合成代码桩提升 LLM Agents 性能

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

GameplayQA：用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架

GameplayQA：用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

为何自蒸馏（有时）会削弱 LLMs 的推理能力？

为何自蒸馏（有时）会削弱 LLMs 的推理能力？

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

UI-Voyager：一种基于失败经验进行自我演进的 GUI Agent

UI-Voyager：一种基于失败经验进行自我演进的 GUI Agent

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

T-MAP：基于轨迹感知的进化搜索对 LLM Agent 进行红队测试

T-MAP：基于轨迹感知的进化搜索对 LLM Agent 进行红队测试

Hyomin Lee, Sangwoo Park, Yumin Choi, et al.

TOOLACE：在 LLM 函数调用中胜出

TOOLACE：在 LLM 函数调用中胜出

监督式微调

Weiwen Liu, Xu Huang, Xingshan Zeng, et al.

LightMover：具备颜色与强度控制的生成式光照运动

LightMover：具备颜色与强度控制的生成式光照运动

Gengze Zhou, Tianyu Wang, Soo Ye Kim, et al.

基于强化学习与对手位姿估计的自主超车轨迹优化

基于强化学习与对手位姿估计的自主超车轨迹优化

Matej Rene Cihlar, Luka Šiktar, Branimir Ćaran, et al.

Make It Up：合成图像在广义少样本语义分割中的真实收益

Make It Up：合成图像在广义少样本语义分割中的真实收益

Guohuan Xie, Xin He, Dingying Fan, et al.

面向基于 LLM 的多说话人语音识别的基于门控交叉注意力适配器的两阶段声学自适应方法

面向基于 LLM 的多说话人语音识别的基于门控交叉注意力适配器的两阶段声学自适应方法

Hao Shi, Yuan Gao, Xugang Lu, et al.

手术人工智能比较研究：数据集、基础模型与医疗通用人工智能的障碍

手术人工智能比较研究：数据集、基础模型与医疗通用人工智能的障碍

Kirill Skobelev, Eric Fithian, Yegor Baranovski, et al.

文本数据集成

文本数据集成

自然语言处理

Md Ataur Rahman, Dimitris Sacharidis, Oscar Romero, et al.

基于流匹配的无数字统一文本到动作生成

基于流匹配的无数字统一文本到动作生成

Guanhe Huang, Oya Celiktutan

SEAR：基于模式的 LLM 网关评估与路由

SEAR：基于模式的 LLM 网关评估与路由

Zecheng Zhang, Han Zheng, Yue Xu

面向扩散 Transformer 中丰富多样性的上下文空间即时排斥机制

面向扩散 Transformer 中丰富多样性的上下文空间即时排斥机制

Omer Dahary, Benaya Koren, Daniel Garibi, et al.

EpochX：构建涌现智能体文明的基础设施

EpochX：构建涌现智能体文明的基础设施

Huacan Wang, Chaofa Yuan, Xialie Zhuang, et al.

TAPS：面向推测采样的任务感知提议分布

TAPS：面向推测采样的任务感知提议分布

Mohamad Zbib, Mohamad Bazzi, Ammar Mohanna, et al.

具有推理轨迹的长尾驾驶场景：KITScenes 长尾数据集

具有推理轨迹的长尾驾驶场景：KITScenes 长尾数据集

Royden Wagner, Omer Sahin Tas, Jaime Villa, et al.

RealChart2Code：基于真实数据与多任务评估推进图表到代码生成研究

RealChart2Code：基于真实数据与多任务评估推进图表到代码生成研究

Jiajun Zhang, Yuying Li, Zhixun Li, et al.

Trace2Skill：将轨迹局部经验蒸馏为可迁移的 Agent 技能

Trace2Skill：将轨迹局部经验蒸馏为可迁移的 Agent 技能

Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.

PackForcing：短视频训练足以支持长视频采样与长上下文推理

PackForcing：短视频训练足以支持长视频采样与长上下文推理

Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.

ShotStream：面向交互式叙事的流式多镜头视频生成

ShotStream：面向交互式叙事的流式多镜头视频生成

Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.

视而不见，心却不忘：面向动态视频世界模型的混合记忆机制

视而不见，心却不忘：面向动态视频世界模型的混合记忆机制

Kaijin Chen, Dingkang Liang, Xin Zhou, et al.

BeSafe-Bench：揭示功能化环境中具身智能体的行为安全风险

BeSafe-Bench：揭示功能化环境中具身智能体的行为安全风险

Yuxuan Li, Yi Lin, Peng Wang, et al.

世界推理竞技场

世界推理竞技场

Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.

MSA：面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制

MSA：面向高效端到端记忆模型扩展至 1 亿 tokens 的稀疏记忆注意力机制

检索增强生成

Yu Chen, Runkai Chen, Sheng Yi, et al.

Voxtral TTS

Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.

RealRestorer：面向基于大规模图像编辑模型的通用真实世界图像复原

RealRestorer：面向基于大规模图像编辑模型的通用真实世界图像复原

Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.

Calibri：通过参数高效校准增强 Diffusion Transformer

Calibri：通过参数高效校准增强 Diffusion Transformer

Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.

Intern-S1-Pro：万亿级科学多模态基础模型

Intern-S1-Pro：万亿级科学多模态基础模型

Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.

PixelSmile：迈向细粒度面部表情编辑

PixelSmile：迈向细粒度面部表情编辑

Jiabin Hua, Hengyuan Xu, Aojie Li, et al.

Claudini：通过自动研究发掘针对 LLMs 的最先进对抗攻击算法

Claudini：通过自动研究发掘针对 LLMs 的最先进对抗攻击算法

Alexander Panfilov, Peter Romov, Igor Shilov, et al.

AutoHarness：通过自动合成代码桩提升 LLM Agents 性能

AutoHarness：通过自动合成代码桩提升 LLM Agents 性能

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

GameplayQA：用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架

GameplayQA：用于决策密集型第一人称视角同步多视频理解的3D虚拟Agent基准测试框架

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

为何自蒸馏（有时）会削弱 LLMs 的推理能力？

为何自蒸馏（有时）会削弱 LLMs 的推理能力？

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

UI-Voyager：一种基于失败经验进行自我演进的 GUI Agent

UI-Voyager：一种基于失败经验进行自我演进的 GUI Agent

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

T-MAP：基于轨迹感知的进化搜索对 LLM Agent 进行红队测试

T-MAP：基于轨迹感知的进化搜索对 LLM Agent 进行红队测试

Hyomin Lee, Sangwoo Park, Yumin Choi, et al.