HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

HyperAI

主区域

GPU

控制台
文档
价格

Pulse

报道

资源

论文
教程
数据集
百科

基准测试

SOTA
大语言模型（LLM）
GPU 排行榜

社区

活动

实用工具

关于服务条款隐私政策
中文

Command Palette

Search for a command to run...

HyperAI
论文

论文

每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

学习、理解、实践，与社区一起构建人工智能的未来

关于

关于我们数据集支持

产品

报道教程数据集百科

链接

TVM 中文 Apache TVM

© HyperAI

津ICP备17010941号-1

京公网安备11010502038810号

GitHub Discord X (formerly Twitter)Bilibili

GUI-Libra：基于动作感知监督与部分可验证强化学习训练原生GUI智能体进行推理与行动

GUI-Libra：基于动作感知监督与部分可验证强化学习训练原生GUI智能体进行推理与行动

监督式微调

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

SkyReels-V4：多模态视频-音频生成、修复与编辑模型

SkyReels-V4：多模态视频-音频生成、修复与编辑模型

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

ARLArena：一种用于稳定智能体强化学习的统一框架

ARLArena：一种用于稳定智能体强化学习的统一框架

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

DreamID-Omni：面向可控以人为中心的音视频生成统一框架

DreamID-Omni：面向可控以人为中心的音视频生成统一框架

统一多模态

Xu Guo, Fulong Ye, Qichao Sun, et al.

MolHIT：基于分层离散扩散模型推进分子图生成

MolHIT：基于分层离散扩散模型推进分子图生成

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

HyTRec：一种用于长行为序列推荐的混合时序感知注意力架构

HyTRec：一种用于长行为序列推荐的混合时序感知注意力架构

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

DREAM：基于智能体度量的深度研究评估

DREAM：基于智能体度量的深度研究评估

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

LongCLI-Bench：面向命令行界面中长时程智能体编程的初步基准与研究

LongCLI-Bench：面向命令行界面中长时程智能体编程的初步基准与研究

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

PyVision-RL：通过强化学习构建开放的智能体视觉模型

PyVision-RL：通过强化学习构建开放的智能体视觉模型

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

从感知到行动：面向视觉推理的交互式基准

从感知到行动：面向视觉推理的交互式基准

多模态表征

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

面向查询聚焦与记忆感知的长上下文重排序模型

面向查询聚焦与记忆感知的长上下文重排序模型

检索增强生成

Yuqing Li, Jiangnan Li, Mo Yu, et al.

面向大规模语言模型终端能力扩展的数据工程

面向大规模语言模型终端能力扩展的数据工程

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

DSDR：用于LLM推理中探索的双尺度多样性正则化

DSDR：用于LLM推理中探索的双尺度多样性正则化

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

Mobile-O：移动端的统一多模态理解与生成

Mobile-O：移动端的统一多模态理解与生成

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

TOPReward：作为机器人学中隐藏零样本奖励的Token概率

TOPReward：作为机器人学中隐藏零样本奖励的Token概率

多模态表征

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

ManCAR：基于流形约束的潜在推理与自适应测试时计算的序列推荐

ManCAR：基于流形约束的潜在推理与自适应测试时计算的序列推荐

多任务学习

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

VLANeXt：构建强大VLA模型的配方

VLANeXt：构建强大VLA模型的配方

多模态表征

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

一个超大规模视频推理套件

一个超大规模视频推理套件

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

基于视觉信息增益的大规模视觉语言模型选择性训练

基于视觉信息增益的大规模视觉语言模型选择性训练

监督式微调

Seulbi Lee, Sangheum Hwang

DeepVision-103K：一个视觉多样、覆盖广泛且可验证的多模态推理数学数据集

DeepVision-103K：一个视觉多样、覆盖广泛且可验证的多模态推理数学数据集

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

SARAH：面向空间感知的实时智能体人类

SARAH：面向空间感知的实时智能体人类

多模态表征

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

EgoPush：面向移动机器人的端到端第一人称多物体重排学习

EgoPush：面向移动机器人的端到端第一人称多物体重排学习

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

生成现实：基于手部与相机控制的交互式视频生成的人本世界模拟

生成现实：基于手部与相机控制的交互式视频生成的人本世界模拟

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

VESPO：用于稳定离策略LLM训练的变分序列级软策略优化

VESPO：用于稳定离策略LLM训练的变分序列级软策略优化

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

阿斯翠三一大型技术报告

阿斯翠三一大型技术报告

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

前沿人工智能风险管理体系实践：风险分析技术报告 v1.5

前沿人工智能风险管理体系实践：风险分析技术报告 v1.5

Dongrui Liu, Yi Yu, Jie Zhang, et al.

统一潜在表示（Unified Latents, UL）：如何训练你的潜在表示

统一潜在表示（Unified Latents, UL）：如何训练你的潜在表示

Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, et al.

Mobile-Agent-v3.5：多平台基础GUI Agent

Mobile-Agent-v3.5：多平台基础GUI Agent

Haiyang Xu, Xi Zhang, Haowei Liu, et al.

SpargeAttention2：通过混合Top-k+Top-p掩码与蒸馏微调实现可训练的稀疏注意力

SpargeAttention2：通过混合Top-k+Top-p掩码与蒸馏微调实现可训练的稀疏注意力

Jintao Zhang, Kai Jiang, Chendong Xiang, et al.

AutoWebWorld：通过有限状态机合成无限可验证的Web环境

AutoWebWorld：通过有限状态机合成无限可验证的Web环境

Yifan Wu, Yiran Peng, Yiyu Chen, et al.

无界客户端-服务器系统的有界模型检测

无界客户端-服务器系统的有界模型检测

Ramchandra Phawade, Tephilla Prince, S. Sheerazuddin

检索增强模型相较于LLM在推理方面带来了多少提升？面向混合知识的多跳推理基准测试框架

检索增强模型相较于LLM在推理方面带来了多少提升？面向混合知识的多跳推理基准测试框架

检索增强生成

Junhong Lin, Bing Zhang, Song Wang, et al.

GUI-Libra：基于动作感知监督与部分可验证强化学习训练原生GUI智能体进行推理与行动

GUI-Libra：基于动作感知监督与部分可验证强化学习训练原生GUI智能体进行推理与行动

监督式微调

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

SkyReels-V4：多模态视频-音频生成、修复与编辑模型

SkyReels-V4：多模态视频-音频生成、修复与编辑模型

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

ARLArena：一种用于稳定智能体强化学习的统一框架

ARLArena：一种用于稳定智能体强化学习的统一框架

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

DreamID-Omni：面向可控以人为中心的音视频生成统一框架

DreamID-Omni：面向可控以人为中心的音视频生成统一框架

统一多模态

Xu Guo, Fulong Ye, Qichao Sun, et al.

MolHIT：基于分层离散扩散模型推进分子图生成

MolHIT：基于分层离散扩散模型推进分子图生成

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

HyTRec：一种用于长行为序列推荐的混合时序感知注意力架构

HyTRec：一种用于长行为序列推荐的混合时序感知注意力架构

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

DREAM：基于智能体度量的深度研究评估

DREAM：基于智能体度量的深度研究评估

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

LongCLI-Bench：面向命令行界面中长时程智能体编程的初步基准与研究

LongCLI-Bench：面向命令行界面中长时程智能体编程的初步基准与研究

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

PyVision-RL：通过强化学习构建开放的智能体视觉模型

PyVision-RL：通过强化学习构建开放的智能体视觉模型

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

从感知到行动：面向视觉推理的交互式基准

从感知到行动：面向视觉推理的交互式基准

多模态表征

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

面向查询聚焦与记忆感知的长上下文重排序模型

面向查询聚焦与记忆感知的长上下文重排序模型

检索增强生成

Yuqing Li, Jiangnan Li, Mo Yu, et al.

面向大规模语言模型终端能力扩展的数据工程

面向大规模语言模型终端能力扩展的数据工程

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

DSDR：用于LLM推理中探索的双尺度多样性正则化

DSDR：用于LLM推理中探索的双尺度多样性正则化

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

Mobile-O：移动端的统一多模态理解与生成

Mobile-O：移动端的统一多模态理解与生成

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

TOPReward：作为机器人学中隐藏零样本奖励的Token概率

TOPReward：作为机器人学中隐藏零样本奖励的Token概率

多模态表征

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

ManCAR：基于流形约束的潜在推理与自适应测试时计算的序列推荐

ManCAR：基于流形约束的潜在推理与自适应测试时计算的序列推荐

多任务学习

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

VLANeXt：构建强大VLA模型的配方

VLANeXt：构建强大VLA模型的配方

多模态表征

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

一个超大规模视频推理套件

一个超大规模视频推理套件

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

基于视觉信息增益的大规模视觉语言模型选择性训练

基于视觉信息增益的大规模视觉语言模型选择性训练

监督式微调

Seulbi Lee, Sangheum Hwang

DeepVision-103K：一个视觉多样、覆盖广泛且可验证的多模态推理数学数据集

DeepVision-103K：一个视觉多样、覆盖广泛且可验证的多模态推理数学数据集

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

SARAH：面向空间感知的实时智能体人类

SARAH：面向空间感知的实时智能体人类

多模态表征

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

EgoPush：面向移动机器人的端到端第一人称多物体重排学习

EgoPush：面向移动机器人的端到端第一人称多物体重排学习

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

生成现实：基于手部与相机控制的交互式视频生成的人本世界模拟

生成现实：基于手部与相机控制的交互式视频生成的人本世界模拟

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

VESPO：用于稳定离策略LLM训练的变分序列级软策略优化

VESPO：用于稳定离策略LLM训练的变分序列级软策略优化

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

阿斯翠三一大型技术报告

阿斯翠三一大型技术报告

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

前沿人工智能风险管理体系实践：风险分析技术报告 v1.5

前沿人工智能风险管理体系实践：风险分析技术报告 v1.5

Dongrui Liu, Yi Yu, Jie Zhang, et al.

统一潜在表示（Unified Latents, UL）：如何训练你的潜在表示

统一潜在表示（Unified Latents, UL）：如何训练你的潜在表示

Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, et al.

Mobile-Agent-v3.5：多平台基础GUI Agent

Mobile-Agent-v3.5：多平台基础GUI Agent

Haiyang Xu, Xi Zhang, Haowei Liu, et al.

SpargeAttention2：通过混合Top-k+Top-p掩码与蒸馏微调实现可训练的稀疏注意力

SpargeAttention2：通过混合Top-k+Top-p掩码与蒸馏微调实现可训练的稀疏注意力

Jintao Zhang, Kai Jiang, Chendong Xiang, et al.

AutoWebWorld：通过有限状态机合成无限可验证的Web环境

AutoWebWorld：通过有限状态机合成无限可验证的Web环境

Yifan Wu, Yiran Peng, Yiyu Chen, et al.

无界客户端-服务器系统的有界模型检测

无界客户端-服务器系统的有界模型检测

Ramchandra Phawade, Tephilla Prince, S. Sheerazuddin

检索增强模型相较于LLM在推理方面带来了多少提升？面向混合知识的多跳推理基准测试框架

检索增强模型相较于LLM在推理方面带来了多少提升？面向混合知识的多跳推理基准测试框架

检索增强生成

Junhong Lin, Bing Zhang, Song Wang, et al.