HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
基于 Cache 的推理与有状态 Conformer:面向流式自动语音识别的研究
Transformer
音频识别
Vahid Noroozi, Somshubra Majumdar, Ankur Kumar, et al.
用于 3D 生成的原生且紧凑的结构化 Latents
3D 生成
扩散模型
Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, et al.
连续音频语言模型
语音生成
LLM
Simon Rouard, Manu Orsini, Axel Roebel, et al.
在虚拟临床环境中演进交互式诊断 Agent
LLM
Agent
Pengcheng Qiu, Chaoyi Wu, Junwei Liu, et al.
WeDLM:弥合扩散语言模型与标准因果注意力机制以实现快速推理
扩散模型
LLM
Aiwei Liu, Minghua He, Shaoxun Zeng, et al.
TurboDiffusion:通过100-200倍加速视频Diffusion模型
扩散模型
视频生成
Jintao Zhang, Kaiwen Zheng, Kai Jiang, et al.
HunyuanVideo-Foley:基于表示对齐的多模态扩散模型用于高保真Foley音频生成
视频生成
音频生成
Sizhe Shan, Qiulin Li, Yutao Cui, et al.
Fara-7B:一种用于计算机使用的高效Agent模型
Agent
LLM
Ahmed Awadallah, Yash Lara, Raghav Magazine, et al.
Fun-ASR 技术报告
LLM
音频识别
Keyu An, Yanni Chen, Zhigao Chen, et al.
利用Gemini加速科学研究:案例研究与常用技术
AI for Science
LLM
David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, et al.
通过策略拍卖实现小规模Agent的扩展
Agent
LLM
Lisa Alazraki, William F. Shen, Yoram Bachrach, et al.
Vibe AIGC:通过智能体编排实现内容生成的新范式
Agent
多模态
Jiaheng Liu, Yuanxing Zhang, Shihao Li, et al.
PaperSearchQA:基于RLVR的科学论文搜索与推理学习
检索增强生成
AI for Science
James Burgess, Jan N. Hansen, Duo Peng, et al.
EgoActor:通过视觉-语言模型将任务规划嵌入空间感知的视角动作中以实现类人机器人
多模态
视觉问答
Yu Bai, MingMing Yu, Chaojie Li, et al.
A-RAG:通过分层检索接口实现智能体增强型检索生成的扩展
检索增强生成
Agent
Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.
Quant VideoGen:通过2比特KV缓存量化实现自回归长视频生成
视频生成
扩散模型
Haocheng Xi, Shuo Yang, Yilong Zhao, et al.
SoMA:一种用于机器人软体操作的真实到仿真神经模拟器
机器人技术
深度估计
Mu Huang, Hui Wang, Kerui Ren, et al.
面向视角自适应的人体视频生成的3D感知隐式运动控制
视频生成
3D 生成
Zhixue Fang, Xu He, Songlin Tang, et al.
daVinci-Agency:高效解锁长周期代理数据
LLM
监督式微调
Mohan Jiang, Dayuan Fu, Junhao Shi, et al.
世界模型的研究并不仅仅是将世界知识注入特定任务中
建模
具身智能
Bohan Zeng, Kaixin Zhu, Daili Hua, et al.
AOrchestra:面向智能体编排的子智能体自动生成
Agent
智能问答
Jianhao Ruan, Zhihao Xu, Yiran Peng, et al.
思维链中缺乏全局规划:揭示LLM的潜在规划时域
LLM
推理
Liyan Xu, Mo Yu, Fandong Meng, et al.
CodeOCR:视觉语言模型在代码理解中的有效性研究
多模态
OCR
Yuling Shi, Chaoxiang Xie, Zhensu Sun, et al.
DeepPlanning:基于可验证约束的长时域Agent规划基准测试
Agent
LLM
Yinger Zhang, Shutong Jiang, Renhao Li, et al.
CL-bench:上下文学习基准
LLM
智能问答
Shihan Dou, Ming Zhang, Zhangyue Yin, et al.
基于自蒸馏的强化学习
强化学习
检索增强生成
Jonas Hübotter, Frederike Lübeck, Lejs Behric, et al.
聊天机器人作为社交伴侣:人们如何感知机器的意识、类人程度以及社交健康益处
人机交互
心理
Rose E. Guingrich, Michael S. A. Graziano
POPE:通过特权在策略探索学习在难题上进行推理
强化学习
推理
Yuxiao Qu, Amrith Setlur, Virginia Smith, et al.
UniReason 1.0:面向世界知识对齐的图像生成与编辑的统一推理框架
文生图
多模态
Dianyi Wang, Chaofan Ma, Feng Han, et al.
闭环闭环:基于RPG-Encoder的通用仓库表示
代码生成
多模态表征
Jane Luo, Chengyu Yin, Xin Zhang, et al.
视觉-DeepResearch基准:重新思考多模态大语言模型中的视觉与文本搜索
视觉问答
多模态
Yu Zeng, Wenxuan Huang, Zhen Fang, et al.
Vision-DeepResearch:在多模态大语言模型中激励深度研究能力
检索增强生成
视觉问答
Wenxuan Huang, Yu Zeng, Qiuchen Wang, et al.
1
9
10
11
12
13
14
15
60
基于 Cache 的推理与有状态 Conformer:面向流式自动语音识别的研究
Transformer
音频识别
Vahid Noroozi, Somshubra Majumdar, Ankur Kumar, et al.
用于 3D 生成的原生且紧凑的结构化 Latents
3D 生成
扩散模型
Jianfeng Xiang, Xiaoxue Chen, Sicheng Xu, et al.
连续音频语言模型
语音生成
LLM
Simon Rouard, Manu Orsini, Axel Roebel, et al.
在虚拟临床环境中演进交互式诊断 Agent
LLM
Agent
Pengcheng Qiu, Chaoyi Wu, Junwei Liu, et al.
WeDLM:弥合扩散语言模型与标准因果注意力机制以实现快速推理
扩散模型
LLM
Aiwei Liu, Minghua He, Shaoxun Zeng, et al.
TurboDiffusion:通过100-200倍加速视频Diffusion模型
扩散模型
视频生成
Jintao Zhang, Kaiwen Zheng, Kai Jiang, et al.
HunyuanVideo-Foley:基于表示对齐的多模态扩散模型用于高保真Foley音频生成
视频生成
音频生成
Sizhe Shan, Qiulin Li, Yutao Cui, et al.
Fara-7B:一种用于计算机使用的高效Agent模型
Agent
LLM
Ahmed Awadallah, Yash Lara, Raghav Magazine, et al.
Fun-ASR 技术报告
LLM
音频识别
Keyu An, Yanni Chen, Zhigao Chen, et al.
利用Gemini加速科学研究:案例研究与常用技术
AI for Science
LLM
David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, et al.
通过策略拍卖实现小规模Agent的扩展
Agent
LLM
Lisa Alazraki, William F. Shen, Yoram Bachrach, et al.
Vibe AIGC:通过智能体编排实现内容生成的新范式
Agent
多模态
Jiaheng Liu, Yuanxing Zhang, Shihao Li, et al.
PaperSearchQA:基于RLVR的科学论文搜索与推理学习
检索增强生成
AI for Science
James Burgess, Jan N. Hansen, Duo Peng, et al.
EgoActor:通过视觉-语言模型将任务规划嵌入空间感知的视角动作中以实现类人机器人
多模态
视觉问答
Yu Bai, MingMing Yu, Chaojie Li, et al.
A-RAG:通过分层检索接口实现智能体增强型检索生成的扩展
检索增强生成
Agent
Mingxuan Du, Benfeng Xu, Chiwei Zhu, et al.
Quant VideoGen:通过2比特KV缓存量化实现自回归长视频生成
视频生成
扩散模型
Haocheng Xi, Shuo Yang, Yilong Zhao, et al.
SoMA:一种用于机器人软体操作的真实到仿真神经模拟器
机器人技术
深度估计
Mu Huang, Hui Wang, Kerui Ren, et al.
面向视角自适应的人体视频生成的3D感知隐式运动控制
视频生成
3D 生成
Zhixue Fang, Xu He, Songlin Tang, et al.
daVinci-Agency:高效解锁长周期代理数据
LLM
监督式微调
Mohan Jiang, Dayuan Fu, Junhao Shi, et al.
世界模型的研究并不仅仅是将世界知识注入特定任务中
建模
具身智能
Bohan Zeng, Kaixin Zhu, Daili Hua, et al.
AOrchestra:面向智能体编排的子智能体自动生成
Agent
智能问答
Jianhao Ruan, Zhihao Xu, Yiran Peng, et al.
思维链中缺乏全局规划:揭示LLM的潜在规划时域
LLM
推理
Liyan Xu, Mo Yu, Fandong Meng, et al.
CodeOCR:视觉语言模型在代码理解中的有效性研究
多模态
OCR
Yuling Shi, Chaoxiang Xie, Zhensu Sun, et al.
DeepPlanning:基于可验证约束的长时域Agent规划基准测试
Agent
LLM
Yinger Zhang, Shutong Jiang, Renhao Li, et al.
CL-bench:上下文学习基准
LLM
智能问答
Shihan Dou, Ming Zhang, Zhangyue Yin, et al.
基于自蒸馏的强化学习
强化学习
检索增强生成
Jonas Hübotter, Frederike Lübeck, Lejs Behric, et al.
聊天机器人作为社交伴侣:人们如何感知机器的意识、类人程度以及社交健康益处
人机交互
心理
Rose E. Guingrich, Michael S. A. Graziano
POPE:通过特权在策略探索学习在难题上进行推理
强化学习
推理
Yuxiao Qu, Amrith Setlur, Virginia Smith, et al.
UniReason 1.0:面向世界知识对齐的图像生成与编辑的统一推理框架
文生图
多模态
Dianyi Wang, Chaofan Ma, Feng Han, et al.
闭环闭环:基于RPG-Encoder的通用仓库表示
代码生成
多模态表征
Jane Luo, Chengyu Yin, Xin Zhang, et al.
视觉-DeepResearch基准:重新思考多模态大语言模型中的视觉与文本搜索
视觉问答
多模态
Yu Zeng, Wenxuan Huang, Zhen Fang, et al.
Vision-DeepResearch:在多模态大语言模型中激励深度研究能力
检索增强生成
视觉问答
Wenxuan Huang, Yu Zeng, Qiuchen Wang, et al.
1
9
10
11
12
13
14
15
60