HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
SWE-QA:语言模型能否回答仓库级代码问题?
智能问答
基准
Weihan Peng, Yuling Shi, Yuhang Wang, et al.
视频模型是零样本学习者和推理者
视频理解
多模态
Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.
用于机械工程分析问题关键求解的N-Plus-1 GPT Agent
LLM
建模
Anthony Patera, Rohan Abeyaratne
Memory-QA:基于多模态记忆的回忆问答
视觉问答
检索增强生成
Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.
MAPO:混合优势策略优化
强化学习
偏好
Wenke Huang, Quan Zhang, Yiyang Fang, et al.
Hyper-Bagel:一种用于多模态理解与生成的统一加速框架
统一多模态
扩散模型
Yanzuo Lu, Xin Xia, Manlin Zhang, et al.
预训练数据上的强化学习
强化学习
LLM
Siheng Li, Kejiao Li, Zenan Xu, et al.
视觉运动策略中是否需要本体感觉状态?
机器人技术
具身智能
Juntu Zhao, Wenbo Lu, Di Zhang, et al.
Baseer:用于阿拉伯文文档到Markdown OCR的视觉-语言模型
OCR
LLM
Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.
GenExam:跨学科文本到图像测评
文生图
图像生成
Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.
Nav-R1:具身场景中的推理与导航
具身智能
强化学习
Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.
MoEs 比你想象的更强大:基于 RoE 的超并行推理扩展
LLM
Transformer
Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.
ARE:扩展Agent环境与评估
Agent
基准
Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.
DiffusionNFT:基于前向过程的在线扩散强化
扩散模型
强化学习
Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.
TempSamp-R1:面向视频LLM的强化微调有效时间采样
强化学习
LLM
Yunheng Li, Jing Cheng, Shaoyong Jia, et al.
OnePiece:将上下文工程与推理引入工业级级联排序系统
LLM
多任务学习
Sunhao Dai, Jiakai Tang, Jiahua Wu, et al.
OmniInsert:通过扩散Transformer模型实现无掩码的任意参考视频插入
视频生成
图生视频
Jinshu Chen, Xinghui Li, Xu Bai, et al.
LIMI:Agent的少即是多
Agent
LLM
Yang Xiao, Mohan Jiang, Jie Sun, et al.
一种模块化融合神经网络方法,用于高效预测蛋白质序列中的多金属结合位点
卷积神经网络
深度学习
JIZHENG LI, CHANGXIN FAN, Hoi Ying LAU, et al.
IndexTTS2:在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破
语音生成
合成
Siyi Zhou, Yiquan Zhou, Yi He, et al.
直接对齐完整扩散轨迹与细粒度人类偏好
扩散模型
文生图
Xiangwei Shen, Zhimin Li, Zhantao Yang, et al.
用于药物-药物相互作用预测的多尺度图神经过程与跨药物共注意力机制
深度学习
Transformer
Zimo Yan, Jie Zhang, Zheng Xie, et al.
GenCAD-3D:基于多模态潜在空间对齐与合成数据集平衡的CAD程序生成
多模态
代码生成
Nomi Yu, Md Ferdous Alam, A. John Hart, et al.
BTL-UI:用于GUI Agent的Blink-Think-Link推理模型
人机交互
推理
Shaojie Zhang, Ruoceng Zhang, Pei Fu, et al.
Lynx:迈向高保真个性化视频生成
图生视频
视频生成
Shen Sang, Tiancheng Zhi, Tianpei Gu, et al.
SPATIALGEN:布局引导的3D室内场景生成
3D 生成
多模态
Chuan Fang, Heng Li, Yixun Liang, et al.
BaseReward:多模态Reward Model的强大基线
偏好
多模态
Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, et al.
潜在分区网络:生成建模、表示学习与分类的统一原理
多任务学习
统一多模态
Zinan Lin, Enshu Liu, Xuefei Ning, et al.
MANZANO:一种具有混合视觉Tokenize的简单且可扩展的统一多模态模型
统一多模态
文生图
Yanghao Li, Rui Qian, Bowen Pan, et al.
Oyster-I:超越拒绝——负责任语言模型的建设性安全对齐
LLM
监督式微调
Ranjie Duan, Jiexi Liu, Xiaojun Jia, et al.
计算即教师:将推理计算转化为无参考监督
LLM
推理
Dulhan Jayalath, Shashwat Goel, Thomas Foster, et al.
RPG:用于统一且可扩展代码库生成的仓库规划图
代码生成
LLM
Jane Luo, Xin Zhang, Steven Liu, et al.
1
25
26
27
28
29
30
31
49
SWE-QA:语言模型能否回答仓库级代码问题?
智能问答
基准
Weihan Peng, Yuling Shi, Yuhang Wang, et al.
视频模型是零样本学习者和推理者
视频理解
多模态
Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.
用于机械工程分析问题关键求解的N-Plus-1 GPT Agent
LLM
建模
Anthony Patera, Rohan Abeyaratne
Memory-QA:基于多模态记忆的回忆问答
视觉问答
检索增强生成
Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.
MAPO:混合优势策略优化
强化学习
偏好
Wenke Huang, Quan Zhang, Yiyang Fang, et al.
Hyper-Bagel:一种用于多模态理解与生成的统一加速框架
统一多模态
扩散模型
Yanzuo Lu, Xin Xia, Manlin Zhang, et al.
预训练数据上的强化学习
强化学习
LLM
Siheng Li, Kejiao Li, Zenan Xu, et al.
视觉运动策略中是否需要本体感觉状态?
机器人技术
具身智能
Juntu Zhao, Wenbo Lu, Di Zhang, et al.
Baseer:用于阿拉伯文文档到Markdown OCR的视觉-语言模型
OCR
LLM
Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.
GenExam:跨学科文本到图像测评
文生图
图像生成
Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.
Nav-R1:具身场景中的推理与导航
具身智能
强化学习
Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.
MoEs 比你想象的更强大:基于 RoE 的超并行推理扩展
LLM
Transformer
Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.
ARE:扩展Agent环境与评估
Agent
基准
Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.
DiffusionNFT:基于前向过程的在线扩散强化
扩散模型
强化学习
Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.
TempSamp-R1:面向视频LLM的强化微调有效时间采样
强化学习
LLM
Yunheng Li, Jing Cheng, Shaoyong Jia, et al.
OnePiece:将上下文工程与推理引入工业级级联排序系统
LLM
多任务学习
Sunhao Dai, Jiakai Tang, Jiahua Wu, et al.
OmniInsert:通过扩散Transformer模型实现无掩码的任意参考视频插入
视频生成
图生视频
Jinshu Chen, Xinghui Li, Xu Bai, et al.
LIMI:Agent的少即是多
Agent
LLM
Yang Xiao, Mohan Jiang, Jie Sun, et al.
一种模块化融合神经网络方法,用于高效预测蛋白质序列中的多金属结合位点
卷积神经网络
深度学习
JIZHENG LI, CHANGXIN FAN, Hoi Ying LAU, et al.
IndexTTS2:在情感表达丰富且时长可控的自回归零样本文本转语音领域的突破
语音生成
合成
Siyi Zhou, Yiquan Zhou, Yi He, et al.
直接对齐完整扩散轨迹与细粒度人类偏好
扩散模型
文生图
Xiangwei Shen, Zhimin Li, Zhantao Yang, et al.
用于药物-药物相互作用预测的多尺度图神经过程与跨药物共注意力机制
深度学习
Transformer
Zimo Yan, Jie Zhang, Zheng Xie, et al.
GenCAD-3D:基于多模态潜在空间对齐与合成数据集平衡的CAD程序生成
多模态
代码生成
Nomi Yu, Md Ferdous Alam, A. John Hart, et al.
BTL-UI:用于GUI Agent的Blink-Think-Link推理模型
人机交互
推理
Shaojie Zhang, Ruoceng Zhang, Pei Fu, et al.
Lynx:迈向高保真个性化视频生成
图生视频
视频生成
Shen Sang, Tiancheng Zhi, Tianpei Gu, et al.
SPATIALGEN:布局引导的3D室内场景生成
3D 生成
多模态
Chuan Fang, Heng Li, Yixun Liang, et al.
BaseReward:多模态Reward Model的强大基线
偏好
多模态
Yi-Fan Zhang, Haihua Yang, Huanyu Zhang, et al.
潜在分区网络:生成建模、表示学习与分类的统一原理
多任务学习
统一多模态
Zinan Lin, Enshu Liu, Xuefei Ning, et al.
MANZANO:一种具有混合视觉Tokenize的简单且可扩展的统一多模态模型
统一多模态
文生图
Yanghao Li, Rui Qian, Bowen Pan, et al.
Oyster-I:超越拒绝——负责任语言模型的建设性安全对齐
LLM
监督式微调
Ranjie Duan, Jiexi Liu, Xiaojun Jia, et al.
计算即教师:将推理计算转化为无参考监督
LLM
推理
Dulhan Jayalath, Shashwat Goel, Thomas Foster, et al.
RPG:用于统一且可扩展代码库生成的仓库规划图
代码生成
LLM
Jane Luo, Xin Zhang, Steven Liu, et al.
1
25
26
27
28
29
30
31
49