HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
及时止损!通过早期路径剪枝实现高效的并行推理学习
LLM
推理
Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.
Qwen3.5-Omni 技术报告
通义千问
多模态
Qwen Team
面向高效且具成本效益的 Retrieval-Augmented Generation 系统的 Web Retrieval-Aware Chunking (W-RAC) 研究
检索增强生成
LLM
Uday Allu, Sonu Kedia, Tanmay Odapally, et al.
PersonaVLM:长期的个性化 Multimodal LLMs
Chang Nie, Chaoyou Fu, Yifan Zhang, et al.
无需数据或优化实现最大脑损伤:通过 Sign-Bit Flips 破坏 Neural Networks
深度学习
LLM
Ido Galil, Moshe Kimhi, Ran El-Yaniv
阐明 Diffusion Probabilistic Models 的 SNR-t Bias
扩散模型
图像生成
Meng Yu, Lei Sun, Jianhao Zeng, et al.
多模态 OCR:解析文档中的一切内容
OCR
文档理解
Handong Zheng, Yumeng Li, Kaile Zhang, et al.
Granite-speech:具备强大英语 ASR 能力的开源语音感知 LLMs
LLM
音频和语音处理
George Saon, Avihu Dekel, Alexander Brooks, et al.
Fish-Speech:利用 Large Language Models 实现先进的多语言 Text-to-Speech 合成
语音生成
LLM
Shijia Liao, Yuxuan Wang, Tianyu Li, et al.
视频对象与交互删除
图像修复
视频生成
Saman Motamed, William Harvey, Benjamin Klein, et al.
VoxCPM:面向上下文感知语音生成与高保真声音克隆的 Tokenizer-Free TTS
语音生成
扩散模型
VoxCPM Team
OmniVoice: 迈向基于 Diffusion Language Models 的全语种 Zero-Shot Text-to-Speech 研究
语音生成
扩散模型
Han Zhu, Lingxuan Ye, Wei Kang, et al.
视觉如何转化为文本:定位 Vision-Language Models 中的 OCR Routing 瓶颈
OCR
多模态
Jonathan Steinberg, Oren Gal
OCR 还是非 OCR?在 MLLMs 时代利用真实世界大规模数据集重新思考文档信息抽取
文档理解
OCR
Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.
dnaHNet:一种用于基因组序列学习的可扩展分层 Foundation Model
深度学习
基因组学
Arnav Shah, Junzhe Li, Parsa Idehpour, et al.
神经计算机
深度学习
视频生成
Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.
ASGuard:通过 Activation-Scaling 机制缓解针对性 Jailbreaking Attack 的防护方法
LLM
监督式微调
Yein Park, Jungwoo Park, Jaewoo Kang
GlobalSplat: 通过 Global Scene Tokens 实现高效的 Feed-Forward 3D Gaussian Splatting
3D 生成
机器视觉 3D
Roni Itkin, Noam Issachar, Yehonatan Keypur, et al.
如何 Fine-Tune 推理模型?一种用于合成 Student-Consistent SFT 数据的高师生协作框架
监督式微调
代码生成
Zixian Huang, Kaichen Yang, Xu Huang, et al.
RAD-2:在生成器-判别器框架下扩展 Reinforcement Learning
扩散模型
自动驾驶
Hao Gao, Shaoyu Chen, Yifan Zhu, et al.
DR$^{3}$-Eval:迈向真实且可复现的深度研究评估
基准
检索增强生成
Qianqian Xie, Qingheng Xiong, He Zhu, et al.
HY-World 2.0:一种用于重建、生成与模拟 3D 世界的多模态 World Model
3D 生成
多模态
Team HY-World, Chenjie Cao, Xuhui Zuo, et al.
pi0.7:一种具有涌现能力的、可控的通用机器人 Foundation Model
多模态
多模态表征
Bo Ai, Ali Amin, Raichelle Aniceto, et al.
GTR:引导式思维强化通过防止 RL 基础的 VLM Agent 训练中的思维崩溃(Thought Collapse)来提升性能
强化学习
Agent
Tong Wei, Yijun Yang, Junliang Xing, et al.
Large Language Models 的 Agent Skills:架构、获取、安全与未来路径
Agent
LLM
Ranjun Xu, Yang Yan
空间理论:Foundation Models 能否通过主动探索构建空间信念?
具身智能
Agent
Pingyue Zhang, Zihan Huang, Yue Wang, et al.
记忆迁移学习:Memory 在 Coding Agents 中是如何跨领域迁移的
Agent
代码生成
Kangsan Kim, Minki Kang, Taeil Kim, et al.
OccuBench: 通过 Language World Models 在真实世界专业任务上评估 AI Agents
基准
Agent
Xiaomeng Hu, Yinger Zhang, Fei Huang, et al.
SpatialEvo:通过确定性几何环境实现自我演化的空间智能
机器视觉 3D
视觉问答
Dinging Li, Yingxiu Zhao, Xinrui Cheng, et al.
RationalRewards:通过推理 Rewards 在训练与测试阶段共同提升视觉生成的 Scale
文生图
图像生成
Haozhe Wang, Cong Wei, Weiming Ren, et al.
Seedance 2.0:提升应对世界复杂性的 Video Generation 能力
视频生成
多模态
Team Seedance, De Chen, Liyang Chen, et al.
GameWorld:迈向多模态 Game Agents 标准化与可验证性的评估研究
Agent
基准
Mingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, et al.
1
2
3
4
61
及时止损!通过早期路径剪枝实现高效的并行推理学习
LLM
推理
Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.
Qwen3.5-Omni 技术报告
通义千问
多模态
Qwen Team
面向高效且具成本效益的 Retrieval-Augmented Generation 系统的 Web Retrieval-Aware Chunking (W-RAC) 研究
检索增强生成
LLM
Uday Allu, Sonu Kedia, Tanmay Odapally, et al.
PersonaVLM:长期的个性化 Multimodal LLMs
Chang Nie, Chaoyou Fu, Yifan Zhang, et al.
无需数据或优化实现最大脑损伤:通过 Sign-Bit Flips 破坏 Neural Networks
深度学习
LLM
Ido Galil, Moshe Kimhi, Ran El-Yaniv
阐明 Diffusion Probabilistic Models 的 SNR-t Bias
扩散模型
图像生成
Meng Yu, Lei Sun, Jianhao Zeng, et al.
多模态 OCR:解析文档中的一切内容
OCR
文档理解
Handong Zheng, Yumeng Li, Kaile Zhang, et al.
Granite-speech:具备强大英语 ASR 能力的开源语音感知 LLMs
LLM
音频和语音处理
George Saon, Avihu Dekel, Alexander Brooks, et al.
Fish-Speech:利用 Large Language Models 实现先进的多语言 Text-to-Speech 合成
语音生成
LLM
Shijia Liao, Yuxuan Wang, Tianyu Li, et al.
视频对象与交互删除
图像修复
视频生成
Saman Motamed, William Harvey, Benjamin Klein, et al.
VoxCPM:面向上下文感知语音生成与高保真声音克隆的 Tokenizer-Free TTS
语音生成
扩散模型
VoxCPM Team
OmniVoice: 迈向基于 Diffusion Language Models 的全语种 Zero-Shot Text-to-Speech 研究
语音生成
扩散模型
Han Zhu, Lingxuan Ye, Wei Kang, et al.
视觉如何转化为文本:定位 Vision-Language Models 中的 OCR Routing 瓶颈
OCR
多模态
Jonathan Steinberg, Oren Gal
OCR 还是非 OCR?在 MLLMs 时代利用真实世界大规模数据集重新思考文档信息抽取
文档理解
OCR
Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.
dnaHNet:一种用于基因组序列学习的可扩展分层 Foundation Model
深度学习
基因组学
Arnav Shah, Junzhe Li, Parsa Idehpour, et al.
神经计算机
深度学习
视频生成
Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.
ASGuard:通过 Activation-Scaling 机制缓解针对性 Jailbreaking Attack 的防护方法
LLM
监督式微调
Yein Park, Jungwoo Park, Jaewoo Kang
GlobalSplat: 通过 Global Scene Tokens 实现高效的 Feed-Forward 3D Gaussian Splatting
3D 生成
机器视觉 3D
Roni Itkin, Noam Issachar, Yehonatan Keypur, et al.
如何 Fine-Tune 推理模型?一种用于合成 Student-Consistent SFT 数据的高师生协作框架
监督式微调
代码生成
Zixian Huang, Kaichen Yang, Xu Huang, et al.
RAD-2:在生成器-判别器框架下扩展 Reinforcement Learning
扩散模型
自动驾驶
Hao Gao, Shaoyu Chen, Yifan Zhu, et al.
DR$^{3}$-Eval:迈向真实且可复现的深度研究评估
基准
检索增强生成
Qianqian Xie, Qingheng Xiong, He Zhu, et al.
HY-World 2.0:一种用于重建、生成与模拟 3D 世界的多模态 World Model
3D 生成
多模态
Team HY-World, Chenjie Cao, Xuhui Zuo, et al.
pi0.7:一种具有涌现能力的、可控的通用机器人 Foundation Model
多模态
多模态表征
Bo Ai, Ali Amin, Raichelle Aniceto, et al.
GTR:引导式思维强化通过防止 RL 基础的 VLM Agent 训练中的思维崩溃(Thought Collapse)来提升性能
强化学习
Agent
Tong Wei, Yijun Yang, Junliang Xing, et al.
Large Language Models 的 Agent Skills:架构、获取、安全与未来路径
Agent
LLM
Ranjun Xu, Yang Yan
空间理论:Foundation Models 能否通过主动探索构建空间信念?
具身智能
Agent
Pingyue Zhang, Zihan Huang, Yue Wang, et al.
记忆迁移学习:Memory 在 Coding Agents 中是如何跨领域迁移的
Agent
代码生成
Kangsan Kim, Minki Kang, Taeil Kim, et al.
OccuBench: 通过 Language World Models 在真实世界专业任务上评估 AI Agents
基准
Agent
Xiaomeng Hu, Yinger Zhang, Fei Huang, et al.
SpatialEvo:通过确定性几何环境实现自我演化的空间智能
机器视觉 3D
视觉问答
Dinging Li, Yingxiu Zhao, Xinrui Cheng, et al.
RationalRewards:通过推理 Rewards 在训练与测试阶段共同提升视觉生成的 Scale
文生图
图像生成
Haozhe Wang, Cong Wei, Weiming Ren, et al.
Seedance 2.0:提升应对世界复杂性的 Video Generation 能力
视频生成
多模态
Team Seedance, De Chen, Liyang Chen, et al.
GameWorld:迈向多模态 Game Agents 标准化与可验证性的评估研究
Agent
基准
Mingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, et al.
1
2
3
4
61