HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
OpenS2S:推进开源端到端共情大语言模型
语音生成
音频和语音处理
Chen Wang, Tianyu Peng, Wen Yang, et al.
Point3R:具有显式空间指针内存的流式3D重建
机器视觉 3D
深度估计
Yuqi Wu, Wenzhao Zheng, Jie Zhou, et al.
多级逐步提示增强强化学习推理能力
强化学习
LLM
Kaiyi Zhang, Ang Lv, Jinpeng Li, et al.
建立构建严谨能动性基准的最佳实践
基准
Agent
Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, et al.
GPT-4o 对视觉理解得如何?评估多模态基础模型在标准计算机视觉任务上的表现
图像识别
图像分类
Rahul Ramachandran, Ali Garjani, Roman Bachmann, et al.
Eka-Eval:印度语言大型语言模型的综合评估框架
基准
LLM
Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, et al.
DynamiCare:一种动态多智能体框架用于交互式和开放式医疗决策制定
Agent
LLM
Tianqi Shang, Weiqing He, Charles Zheng, et al.
基于能量的 Transformer 是可扩展的学习者和思考者
Transformer
计算机视觉
Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, et al.
IntFold:一种可控的基础模型用于通用和专业的生物分子结构预测
Transformer
生物分子
The IntFold Team, Leon Qiao, Wayne Bai, et al.
倾听内心的声音:通过中间特征反馈对齐ControlNet训练
扩散模型
图像生成
Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, et al.
Skywork-Reward-V2:通过人机协同扩展偏好数据管理
偏好
数据集
Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, et al.
LangScene-X:利用TriMap视频扩散重建可泛化的3D语言嵌入场景
统一多模态
3D 生成
Fangfu Liu, Hao Li, Jiawei Chi, et al.
基于图像的多模态推理:基础、方法与未来前沿
多模态
推理
Zhaochen Su, Peng Xia, Hangyu Guo, et al.
WebSailor:用于网络代理的超人类推理导航
Agent
推理
Kuan Li, Zhongwang Zhang, Huifeng Yin, et al.
EmoBench-M:面向多模态大语言模型的情感智能基准测试
情绪识别
多模态
He Hu, Yucheng Zhou, Lianzhong You, et al.
机器学习中的AI研究代理:在MLE-bench中进行搜索、探索与泛化
强化学习
AI for Science
Edan Toledo, Karen Hambardzumyan, Martin Josifoski, et al.
局部感知的并行解码用于高效的自回归图像生成
图像生成
Transformer
Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, et al.
FreeMorph:无需调参的扩散模型通用图像变形
扩散模型
图生图
Yukang Cao, Chenyang Si, Jinghao Wang, et al.
视觉-语言-动作模型综述:从动作分词的角度出发
多模态
自然语言处理
Yifan Zhong, Fengshuo Bai, Shaofei Cai, et al.
在任意条件下测量任何深度
深度估计
机器视觉 3D
Boyuan Sun, Modi Jin, Bowen Yin, et al.
LongAnimation:基于动态全局-局部记忆的长动画生成
视频生成
视频理解
Nan Chen, Mengqi Huang, Yihao Meng, et al.
快手 Keye-VL 技术报告
视频理解
多模态
Kwai Keye Team, Biao Yang, Bin Wen, et al.
自动驾驶中视觉-语言-行为模型的综述
多模态
自动驾驶
Sicong Jiang, Zilin Huang, Kangan Qian, et al.
MoCa:模态感知的持续预训练生成更优的双向多模态嵌入
多模态表征
Transformer
Haonan Chen, Hong Liu, Yuping Luo, et al.
FreeLong++:通过多频带谱融合实现无训练长视频生成
视频生成
文生视频
Yu Lu, Yi Yang
超越符号:从脑启发智能到人工通用智能的认知基础及其社会影响
Agent
推理
Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, et al.
数学推理是否提升通用大语言模型的能力?理解大语言模型推理的可迁移性
监督式微调
模型训练
Maggie Huan, Yuetai Li, Tuney Zheng, et al.
SciArena:科学文献任务中基础模型的开放评估平台
LLM
偏好
Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, et al.
医学中的整体人工智能:性能提升与可解释性增强
多模态
多模态表征
Periklis Petridis, Georgios Margaritis, Vasiliki Stoumpou, et al.
evolving prompts in-context: 一种开放式的、自我复制的视角
LLM
推理
Wang, Jianyu, Hu, et al.
SPIRAL:零和博弈中的自我对弈通过多智能体多轮强化学习激励推理
强化学习
推理
Bo Liu, Leon Guertler, Simon Yu, et al.
面向听者的奖励性思考在视觉语言模型中的图像偏好研究
偏好
推理
Alexander Gambashidze, Li Pengyi, Matvey Skripkin, et al.
1
41
42
43
44
45
46
47
49
OpenS2S:推进开源端到端共情大语言模型
语音生成
音频和语音处理
Chen Wang, Tianyu Peng, Wen Yang, et al.
Point3R:具有显式空间指针内存的流式3D重建
机器视觉 3D
深度估计
Yuqi Wu, Wenzhao Zheng, Jie Zhou, et al.
多级逐步提示增强强化学习推理能力
强化学习
LLM
Kaiyi Zhang, Ang Lv, Jinpeng Li, et al.
建立构建严谨能动性基准的最佳实践
基准
Agent
Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, et al.
GPT-4o 对视觉理解得如何?评估多模态基础模型在标准计算机视觉任务上的表现
图像识别
图像分类
Rahul Ramachandran, Ali Garjani, Roman Bachmann, et al.
Eka-Eval:印度语言大型语言模型的综合评估框架
基准
LLM
Samridhi Raj Sinha, Rajvee Sheth, Abhishek Upperwal, et al.
DynamiCare:一种动态多智能体框架用于交互式和开放式医疗决策制定
Agent
LLM
Tianqi Shang, Weiqing He, Charles Zheng, et al.
基于能量的 Transformer 是可扩展的学习者和思考者
Transformer
计算机视觉
Alexi Gladstone, Ganesh Nanduru, Md Mofijul Islam, et al.
IntFold:一种可控的基础模型用于通用和专业的生物分子结构预测
Transformer
生物分子
The IntFold Team, Leon Qiao, Wayne Bai, et al.
倾听内心的声音:通过中间特征反馈对齐ControlNet训练
扩散模型
图像生成
Nina Konovalova, Maxim Nikolaev, Andrey Kuznetsov, et al.
Skywork-Reward-V2:通过人机协同扩展偏好数据管理
偏好
数据集
Chris Yuhao Liu, Liang Zeng, Yuzhen Xiao, et al.
LangScene-X:利用TriMap视频扩散重建可泛化的3D语言嵌入场景
统一多模态
3D 生成
Fangfu Liu, Hao Li, Jiawei Chi, et al.
基于图像的多模态推理:基础、方法与未来前沿
多模态
推理
Zhaochen Su, Peng Xia, Hangyu Guo, et al.
WebSailor:用于网络代理的超人类推理导航
Agent
推理
Kuan Li, Zhongwang Zhang, Huifeng Yin, et al.
EmoBench-M:面向多模态大语言模型的情感智能基准测试
情绪识别
多模态
He Hu, Yucheng Zhou, Lianzhong You, et al.
机器学习中的AI研究代理:在MLE-bench中进行搜索、探索与泛化
强化学习
AI for Science
Edan Toledo, Karen Hambardzumyan, Martin Josifoski, et al.
局部感知的并行解码用于高效的自回归图像生成
图像生成
Transformer
Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, et al.
FreeMorph:无需调参的扩散模型通用图像变形
扩散模型
图生图
Yukang Cao, Chenyang Si, Jinghao Wang, et al.
视觉-语言-动作模型综述:从动作分词的角度出发
多模态
自然语言处理
Yifan Zhong, Fengshuo Bai, Shaofei Cai, et al.
在任意条件下测量任何深度
深度估计
机器视觉 3D
Boyuan Sun, Modi Jin, Bowen Yin, et al.
LongAnimation:基于动态全局-局部记忆的长动画生成
视频生成
视频理解
Nan Chen, Mengqi Huang, Yihao Meng, et al.
快手 Keye-VL 技术报告
视频理解
多模态
Kwai Keye Team, Biao Yang, Bin Wen, et al.
自动驾驶中视觉-语言-行为模型的综述
多模态
自动驾驶
Sicong Jiang, Zilin Huang, Kangan Qian, et al.
MoCa:模态感知的持续预训练生成更优的双向多模态嵌入
多模态表征
Transformer
Haonan Chen, Hong Liu, Yuping Luo, et al.
FreeLong++:通过多频带谱融合实现无训练长视频生成
视频生成
文生视频
Yu Lu, Yi Yang
超越符号:从脑启发智能到人工通用智能的认知基础及其社会影响
Agent
推理
Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, et al.
数学推理是否提升通用大语言模型的能力?理解大语言模型推理的可迁移性
监督式微调
模型训练
Maggie Huan, Yuetai Li, Tuney Zheng, et al.
SciArena:科学文献任务中基础模型的开放评估平台
LLM
偏好
Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, et al.
医学中的整体人工智能:性能提升与可解释性增强
多模态
多模态表征
Periklis Petridis, Georgios Margaritis, Vasiliki Stoumpou, et al.
evolving prompts in-context: 一种开放式的、自我复制的视角
LLM
推理
Wang, Jianyu, Hu, et al.
SPIRAL:零和博弈中的自我对弈通过多智能体多轮强化学习激励推理
强化学习
推理
Bo Liu, Leon Guertler, Simon Yu, et al.
面向听者的奖励性思考在视觉语言模型中的图像偏好研究
偏好
推理
Alexander Gambashidze, Li Pengyi, Matvey Skripkin, et al.
1
41
42
43
44
45
46
47
49