HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
HyperAI
HyperAI
主区域
首页
GPU
控制台
文档
价格
Pulse
报道
资源
论文
教程
数据集
百科
基准测试
SOTA
大语言模型(LLM)
GPU 排行榜
社区
活动
开源
实用工具
搜索
关于
服务条款
隐私政策
中文
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
登录
HyperAI
论文
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势
Med-Banana-50K:用于文本引导的医学图像编辑的跨模态大规模数据集
数据集
文生图
Zhihui Chen, Mengling Feng
Kascade:一种面向长上下文LLM推理的实用稀疏注意力方法
Transformer
LLM
Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.
GLM-4.5:智能体、推理与编程(ARC)基础模型
推理
Agent
GroundingME:通过多维评估揭示MLLMs中的视觉定位鸿沟
多模态
基准
Rang Li, Lei Li, Shuhuai Ren, et al.
语义与重构同样重要:使表示编码器适用于文本到图像生成与编辑
文生图
扩散模型
Shilong Zhang, He Zhang, Zhifei Zhang, et al.
4D-RGPT:通过感知蒸馏实现区域级4D理解
视觉问答
多模态表征
Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.
Seed-Prover 1.5:通过经验学习掌握本科水平定理证明
代码生成
Agent
Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.
当推理遇见其法则
推理
基准
Junyu Zhang, Yifan Sun, Tianang Leng, et al.
基于科学家对齐工作流的LLM科学通用智能探究
基准
LLM
Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.
K2-V2:一个360-开放、推理增强的LLM
监督式微调
推理
Zhengzhong Liu, Liping Tang, Linghao Jin, et al.
VenusBench-GD:面向多样化定位任务的综合性多平台GUI基准
基准
人机交互
Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.
MCIF:来自科学演讲的多模态跨语言指令遵循基准
多模态
统一多模态
Sara Papi, Maike Züfle, Marco Gaido, et al.
NitroGen:面向通用游戏Agent的开源基础模型
计算机视觉
视频理解
Loic Magne, Anas Awadalla, Guanzhi Wang, et al.
H-神经元:关于LLM中与幻觉相关的神经元的存在性、影响及其起源
LLM
自然语言处理
Cheng Gao, Huimin Chen, Chaojun Xiao, et al.
世界即你的画布:通过参考图像、轨迹与文本绘制可提示事件
文生视频
图生视频
Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.
炼金术师:通过元梯度数据选择解锁文本到图像模型训练的效率
文生图
扩散模型
Kaixin Ding, Yang Zhou, Xi Chen, et al.
深度任意全景图:一种全景深度估计的基础模型
深度估计
机器视觉 3D
Xin Lin, Meixi Song, Dizhe Zhang, et al.
生成式重聚焦:从单张图像实现灵活的失焦控制
图生图
深度估计
Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu
StereoPilot:通过生成先验学习统一且高效的立体转换
视频处理
图生图
Guibao Shen, Yihua Du, Wenhang Ge, et al.
下一代嵌入预测助力强大视觉学习器的构建
Transformer
计算机视觉
Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.
Agent AI:探索多模态交互的前沿
具身智能
多模态
Zane Durante, Qiuyuan Huang, Naoki Wake, et al.
人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究
推理
人工智能
Yuanhang Liu, Beichen Wang, Peng Li, et al.
GenEval 2:应对文本到图像评估中的基准漂移问题
文生图
基准
Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.
PrivateXR:通过可解释AI引导的差分隐私防御扩展现实中的隐私攻击
情绪识别
多模态
Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque
时间摩擦与司法结果:基于2020—2024年库克县刑事判决中时间延迟影响的分析
数据集
建模
Yifei Tong
元强化学习在语言智能体中激发探索行为
强化学习
LLM
Yulun Jiang, Liangze Jiang, Damien Teney, et al.
LLMCache:面向Transformer推理中加速复用的分层缓存策略
LLM
Transformer
Harsh Vardhan Bansal
OPENTOUCH:将全手触觉带入现实世界交互
多模态
视频理解
Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.
VideoRewardBench:面向视频理解的多模态Reward模型综合评估
视频理解
视觉问答
Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.
Soul:为数字人注入生命力以实现高保真长期多模态动画
统一多模态
图生视频
Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.
IF-Bench:基于生成视觉的红外图像MLLMs基准测试与增强
视觉问答
基准
Tao Zhang, Yuyang Hong, Yang Xia, et al.
RecGPT-V2 技术报告
LLM
推理
Chao Yi, Dian Chen, Gaoyang Guo, et al.
1
7
8
9
10
11
12
13
49
Med-Banana-50K:用于文本引导的医学图像编辑的跨模态大规模数据集
数据集
文生图
Zhihui Chen, Mengling Feng
Kascade:一种面向长上下文LLM推理的实用稀疏注意力方法
Transformer
LLM
Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.
GLM-4.5:智能体、推理与编程(ARC)基础模型
推理
Agent
GroundingME:通过多维评估揭示MLLMs中的视觉定位鸿沟
多模态
基准
Rang Li, Lei Li, Shuhuai Ren, et al.
语义与重构同样重要:使表示编码器适用于文本到图像生成与编辑
文生图
扩散模型
Shilong Zhang, He Zhang, Zhifei Zhang, et al.
4D-RGPT:通过感知蒸馏实现区域级4D理解
视觉问答
多模态表征
Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.
Seed-Prover 1.5:通过经验学习掌握本科水平定理证明
代码生成
Agent
Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.
当推理遇见其法则
推理
基准
Junyu Zhang, Yifan Sun, Tianang Leng, et al.
基于科学家对齐工作流的LLM科学通用智能探究
基准
LLM
Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.
K2-V2:一个360-开放、推理增强的LLM
监督式微调
推理
Zhengzhong Liu, Liping Tang, Linghao Jin, et al.
VenusBench-GD:面向多样化定位任务的综合性多平台GUI基准
基准
人机交互
Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.
MCIF:来自科学演讲的多模态跨语言指令遵循基准
多模态
统一多模态
Sara Papi, Maike Züfle, Marco Gaido, et al.
NitroGen:面向通用游戏Agent的开源基础模型
计算机视觉
视频理解
Loic Magne, Anas Awadalla, Guanzhi Wang, et al.
H-神经元:关于LLM中与幻觉相关的神经元的存在性、影响及其起源
LLM
自然语言处理
Cheng Gao, Huimin Chen, Chaojun Xiao, et al.
世界即你的画布:通过参考图像、轨迹与文本绘制可提示事件
文生视频
图生视频
Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.
炼金术师:通过元梯度数据选择解锁文本到图像模型训练的效率
文生图
扩散模型
Kaixin Ding, Yang Zhou, Xi Chen, et al.
深度任意全景图:一种全景深度估计的基础模型
深度估计
机器视觉 3D
Xin Lin, Meixi Song, Dizhe Zhang, et al.
生成式重聚焦:从单张图像实现灵活的失焦控制
图生图
深度估计
Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu
StereoPilot:通过生成先验学习统一且高效的立体转换
视频处理
图生图
Guibao Shen, Yihua Du, Wenhang Ge, et al.
下一代嵌入预测助力强大视觉学习器的构建
Transformer
计算机视觉
Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.
Agent AI:探索多模态交互的前沿
具身智能
多模态
Zane Durante, Qiuyuan Huang, Naoki Wake, et al.
人工智能数学家作为推动数学发现的合作伙伴——均质化理论中的案例研究
推理
人工智能
Yuanhang Liu, Beichen Wang, Peng Li, et al.
GenEval 2:应对文本到图像评估中的基准漂移问题
文生图
基准
Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.
PrivateXR:通过可解释AI引导的差分隐私防御扩展现实中的隐私攻击
情绪识别
多模态
Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque
时间摩擦与司法结果:基于2020—2024年库克县刑事判决中时间延迟影响的分析
数据集
建模
Yifei Tong
元强化学习在语言智能体中激发探索行为
强化学习
LLM
Yulun Jiang, Liangze Jiang, Damien Teney, et al.
LLMCache:面向Transformer推理中加速复用的分层缓存策略
LLM
Transformer
Harsh Vardhan Bansal
OPENTOUCH:将全手触觉带入现实世界交互
多模态
视频理解
Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.
VideoRewardBench:面向视频理解的多模态Reward模型综合评估
视频理解
视觉问答
Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.
Soul:为数字人注入生命力以实现高保真长期多模态动画
统一多模态
图生视频
Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.
IF-Bench:基于生成视觉的红外图像MLLMs基准测试与增强
视觉问答
基准
Tao Zhang, Yuyang Hong, Yang Xia, et al.
RecGPT-V2 技术报告
LLM
推理
Chao Yi, Dian Chen, Gaoyang Guo, et al.
1
7
8
9
10
11
12
13
49