HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务协议
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
指令引导的胸部X光图像病灶分割方法及其自动构建的大规模数据集
语义分割
多模态
Geon Choi, Hangyul Yoon, Hyunju Shin, et al.
VisPlay:从图像中自演化视觉-语言模型
强化学习
多模态
Yicheng He, Chengsong Huang, Zongxia Li, et al.
通过视频进行推理:首个基于迷宫求解任务对视频模型推理能力的评估
多模态表征
推理
Cheng Yang, Haiyuan Wan, Yiran Peng, et al.
VIDEOP2R:从感知到推理的视频理解
视频理解
多模态表征
Yifan Jiang, Yueying Wang, Rui Zhao, et al.
Kandinsky 5.0:面向图像与视频生成的基础模型家族
文生图
图生视频
Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.
JAM-2:具有高成功率的类药物抗体的全计算设计
AI for Science
深度学习
Nabla Bio
PathMind:一种基于大型语言模型的知识图谱推理的检索-优先级排序-推理框架
检索增强生成
LLM
Yu Liu, Xixun Lin, Yanmin Shang, et al.
审稿人:超越文本反思,迈向长视频理解中的多模态内省推理
视频理解
推理
Jiaze Li, Hao Yin, Wenhui Tan, et al.
MVI-Bench:面向低视觉语言模型中误导性视觉输入鲁棒性评估的综合性基准
视觉问答
多模态
Huiyi Chen, Jiawei Peng, Dehai Min, et al.
世界模拟器能进行推理吗?Gen-ViRe:一个生成式视觉推理基准
基准
视频生成
Xinxin Liu, Zhaopan Xu, Kai Wang, et al.
一种风格胜过一行代码:通过离散风格空间实现代码到风格图像的生成
文生图
扩散模型
Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.
AraLingBench:用于评估大型语言模型阿拉伯语语言能力的人工标注基准
基准
LLM
Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.
Think-at-Hard:通过选择性潜在迭代提升推理型语言模型
LLM
推理
Tianyu Fu, Yichen You, Zekai Chen, et al.
HumanSense:从多模态感知到通过推理实现共情的上下文感知响应的MLLMs
LLM
多模态
Zheng Qin, Ruobing Zheng, Yabing Wang, et al.
CamCloneMaster:实现基于参考的相机控制用于视频生成
视频生成
图生视频
Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.
EditScore:通过高保真奖励建模解锁图像编辑中的在线RL
强化学习
偏好
Xin Luo, Jiahao Wang, Chenyuan Wu, et al.
InteractMove:基于文本控制的3D场景中可移动物体的人-物交互生成
机器人技术
具身智能
Xinhao Cai, Minghang Zheng, Xin Jin, et al.
WebCoach:具有跨会话记忆引导的自演化Web Agent
Agent
LLM
Genglin Liu, Shijie Geng, Sha Li, et al.
信任的学习:在序列决策中对不同建议者可靠性进行贝叶斯自适应
强化学习
Agent
Dylan M. Asmar, Mykel J. Kochenderfer
GroupRank:一种由强化学习驱动的分组重排序范式
检索增强生成
LLM
Duolin Sun, Meixiu Long, Dan Yang, et al.
MMaDA-Parallel:面向思维感知编辑与生成的多模态大扩散语言模型
扩散模型
LLM
Ye Tian, Ling Yang, Jiongfan Yang, et al.
TiViBench:面向视频生成模型的视频思维推理基准测试
视频生成
推理
Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.
Part-X-MLLM:面向部件感知的3D多模态大语言模型
统一多模态
3D 生成
Chunshi Wang, Junliang Ye, Yunhan Yang, et al.
Uni-MoE-2.0-Omni:基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展
统一多模态
LLM
Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.
P1:基于强化学习的物理奥林匹克竞赛攻关
推理
LLM
Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.
Lancelot:面向高效且隐私保护的拜占庭鲁棒联邦学习的全同态加密框架
计算机视觉
神经网络
Siyang Jiang, Hao Yang, Qipeng Xie, et al.
无需变分自编码器的潜在扩散模型
扩散模型
图像生成
Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.
RewardMap:通过多阶段强化学习应对细粒度视觉推理中的稀疏奖励
视觉问答
强化学习
Sicheng Feng, Kaiwen Tuo, Song Wang, et al.
ReinFlow:通过在线强化学习微调流匹配策略
强化学习
扩散模型
Tonghe Zhang, Chao Yu, Sichang Su, et al.
推理能力的语音评估:诊断模态诱导的性能差距
基准
音频和语音处理
Yueqian Lin, Zhengmian Hu, Qinsi Wang, et al.
MarsRL:通过代理流水线并行化的强化学习推进多Agent推理系统
强化学习
Agent
Shulin Liu, Dong Du, Tao Yang, et al.
虚拟宽度网络
Transformer
模型训练
Seed, Baisheng Li, Banggu Wu, et al.
1
25
26
27
28
29
30
31
60
指令引导的胸部X光图像病灶分割方法及其自动构建的大规模数据集
语义分割
多模态
Geon Choi, Hangyul Yoon, Hyunju Shin, et al.
VisPlay:从图像中自演化视觉-语言模型
强化学习
多模态
Yicheng He, Chengsong Huang, Zongxia Li, et al.
通过视频进行推理:首个基于迷宫求解任务对视频模型推理能力的评估
多模态表征
推理
Cheng Yang, Haiyuan Wan, Yiran Peng, et al.
VIDEOP2R:从感知到推理的视频理解
视频理解
多模态表征
Yifan Jiang, Yueying Wang, Rui Zhao, et al.
Kandinsky 5.0:面向图像与视频生成的基础模型家族
文生图
图生视频
Vladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, et al.
JAM-2:具有高成功率的类药物抗体的全计算设计
AI for Science
深度学习
Nabla Bio
PathMind:一种基于大型语言模型的知识图谱推理的检索-优先级排序-推理框架
检索增强生成
LLM
Yu Liu, Xixun Lin, Yanmin Shang, et al.
审稿人:超越文本反思,迈向长视频理解中的多模态内省推理
视频理解
推理
Jiaze Li, Hao Yin, Wenhui Tan, et al.
MVI-Bench:面向低视觉语言模型中误导性视觉输入鲁棒性评估的综合性基准
视觉问答
多模态
Huiyi Chen, Jiawei Peng, Dehai Min, et al.
世界模拟器能进行推理吗?Gen-ViRe:一个生成式视觉推理基准
基准
视频生成
Xinxin Liu, Zhaopan Xu, Kai Wang, et al.
一种风格胜过一行代码:通过离散风格空间实现代码到风格图像的生成
文生图
扩散模型
Huijie Liu, Shuhao Cui, Haoxiang Cao, et al.
AraLingBench:用于评估大型语言模型阿拉伯语语言能力的人工标注基准
基准
LLM
Mohammad Zbib, Hasan Abed Al Kader Hammoud, Sina Mukalled, et al.
Think-at-Hard:通过选择性潜在迭代提升推理型语言模型
LLM
推理
Tianyu Fu, Yichen You, Zekai Chen, et al.
HumanSense:从多模态感知到通过推理实现共情的上下文感知响应的MLLMs
LLM
多模态
Zheng Qin, Ruobing Zheng, Yabing Wang, et al.
CamCloneMaster:实现基于参考的相机控制用于视频生成
视频生成
图生视频
Yawen Luo, Jianhong Bai, Xiaoyu Shi, et al.
EditScore:通过高保真奖励建模解锁图像编辑中的在线RL
强化学习
偏好
Xin Luo, Jiahao Wang, Chenyuan Wu, et al.
InteractMove:基于文本控制的3D场景中可移动物体的人-物交互生成
机器人技术
具身智能
Xinhao Cai, Minghang Zheng, Xin Jin, et al.
WebCoach:具有跨会话记忆引导的自演化Web Agent
Agent
LLM
Genglin Liu, Shijie Geng, Sha Li, et al.
信任的学习:在序列决策中对不同建议者可靠性进行贝叶斯自适应
强化学习
Agent
Dylan M. Asmar, Mykel J. Kochenderfer
GroupRank:一种由强化学习驱动的分组重排序范式
检索增强生成
LLM
Duolin Sun, Meixiu Long, Dan Yang, et al.
MMaDA-Parallel:面向思维感知编辑与生成的多模态大扩散语言模型
扩散模型
LLM
Ye Tian, Ling Yang, Jiongfan Yang, et al.
TiViBench:面向视频生成模型的视频思维推理基准测试
视频生成
推理
Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.
Part-X-MLLM:面向部件感知的3D多模态大语言模型
统一多模态
3D 生成
Chunshi Wang, Junliang Ye, Yunhan Yang, et al.
Uni-MoE-2.0-Omni:基于先进MoE、训练与数据的面向语言中心的全模态大模型扩展
统一多模态
LLM
Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.
P1:基于强化学习的物理奥林匹克竞赛攻关
推理
LLM
Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.
Lancelot:面向高效且隐私保护的拜占庭鲁棒联邦学习的全同态加密框架
计算机视觉
神经网络
Siyang Jiang, Hao Yang, Qipeng Xie, et al.
无需变分自编码器的潜在扩散模型
扩散模型
图像生成
Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.
RewardMap:通过多阶段强化学习应对细粒度视觉推理中的稀疏奖励
视觉问答
强化学习
Sicheng Feng, Kaiwen Tuo, Song Wang, et al.
ReinFlow:通过在线强化学习微调流匹配策略
强化学习
扩散模型
Tonghe Zhang, Chao Yu, Sichang Su, et al.
推理能力的语音评估:诊断模态诱导的性能差距
基准
音频和语音处理
Yueqian Lin, Zhengmian Hu, Qinsi Wang, et al.
MarsRL:通过代理流水线并行化的强化学习推进多Agent推理系统
强化学习
Agent
Shulin Liu, Dong Du, Tao Yang, et al.
虚拟宽度网络
Transformer
模型训练
Seed, Baisheng Li, Banggu Wu, et al.
1
25
26
27
28
29
30
31
60