Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

OpenMMReasoner:以开放与通用的方案拓展多模态推理的前沿

HiPO:面向LLMs动态推理的混合策略优化































OpenMMReasoner:以开放与通用的方案拓展多模态推理的前沿

HiPO:面向LLMs动态推理的混合策略优化






























SERES:基于语义感知的稀疏视角神经重建
SDAR:一种用于可扩展序列生成的协同扩散-自回归范式
MultiPL-MoE:通过混合专家模型扩展大型语言模型的多编程语言能力
CapRL:通过强化学习激发密集图像描述能力
通过离散扩散发散指令实现超快速语言生成
DisCO:通过判别约束优化强化大型推理模型
QSVD:面向低精度视觉-语言模型中统一查询-键-值权重压缩的高效低秩近似
嵌套学习:深度学习架构的幻觉
SAM 3D:将图像中的任意内容3D化
视频即答案:基于联合GRPO的下一视频事件预测与生成
首帧是视频内容定制的首选之地
基于多模态基础模型的时空智能扩展
Step-Audio-R1 技术报告
V-ReasonBench:面向视频生成模型的统一推理基准测试套件
Olmo 3
GPT-5的早期科学加速实验
迈向人工智能在医学影像中偏见的客观、系统评估
成为优秀的AI研究Agent需要什么?——探究创意多样性的作用
指令引导的胸部X光图像病灶分割方法及其自动构建的大规模数据集
VisPlay:从图像中自演化视觉-语言模型
通过视频进行推理:首个基于迷宫求解任务对视频模型推理能力的评估
VIDEOP2R:从感知到推理的视频理解
Kandinsky 5.0:面向图像与视频生成的基础模型家族
JAM-2:具有高成功率的类药物抗体的全计算设计
PathMind:一种基于大型语言模型的知识图谱推理的检索-优先级排序-推理框架
审稿人:超越文本反思,迈向长视频理解中的多模态内省推理
MVI-Bench:面向低视觉语言模型中误导性视觉输入鲁棒性评估的综合性基准
世界模拟器能进行推理吗?Gen-ViRe:一个生成式视觉推理基准
一种风格胜过一行代码:通过离散风格空间实现代码到风格图像的生成
AraLingBench:用于评估大型语言模型阿拉伯语语言能力的人工标注基准
SERES:基于语义感知的稀疏视角神经重建
SDAR:一种用于可扩展序列生成的协同扩散-自回归范式
MultiPL-MoE:通过混合专家模型扩展大型语言模型的多编程语言能力
CapRL:通过强化学习激发密集图像描述能力
通过离散扩散发散指令实现超快速语言生成
DisCO:通过判别约束优化强化大型推理模型
QSVD:面向低精度视觉-语言模型中统一查询-键-值权重压缩的高效低秩近似
嵌套学习:深度学习架构的幻觉
SAM 3D:将图像中的任意内容3D化
视频即答案:基于联合GRPO的下一视频事件预测与生成
首帧是视频内容定制的首选之地
基于多模态基础模型的时空智能扩展
Step-Audio-R1 技术报告
V-ReasonBench:面向视频生成模型的统一推理基准测试套件
Olmo 3
GPT-5的早期科学加速实验
迈向人工智能在医学影像中偏见的客观、系统评估
成为优秀的AI研究Agent需要什么?——探究创意多样性的作用
指令引导的胸部X光图像病灶分割方法及其自动构建的大规模数据集
VisPlay:从图像中自演化视觉-语言模型
通过视频进行推理:首个基于迷宫求解任务对视频模型推理能力的评估
VIDEOP2R:从感知到推理的视频理解
Kandinsky 5.0:面向图像与视频生成的基础模型家族
JAM-2:具有高成功率的类药物抗体的全计算设计
PathMind:一种基于大型语言模型的知识图谱推理的检索-优先级排序-推理框架
审稿人:超越文本反思,迈向长视频理解中的多模态内省推理
MVI-Bench:面向低视觉语言模型中误导性视觉输入鲁棒性评估的综合性基准
世界模拟器能进行推理吗?Gen-ViRe:一个生成式视觉推理基准
一种风格胜过一行代码:通过离散风格空间实现代码到风格图像的生成
AraLingBench:用于评估大型语言模型阿拉伯语语言能力的人工标注基准