Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

更短但不更差:通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

Brain-IT:通过Brain-Interaction Transformer从fMRI进行图像重建































更短但不更差:通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

Brain-IT:通过Brain-Interaction Transformer从fMRI进行图像重建






























模态冲突时:单模态推理不确定性如何主导MLLMs中的偏好动态
不要盲视你的VLA:面向OOD泛化的视觉表征对齐
当可视化成为推理的第一步时:MIRA,一个用于视觉链式思维的基准测试
VCode:一个以SVG作为符号化视觉表示的多模态编码基准
人工智能生产力指数(APEX)
帧链:通过帧感知推理推进多模态LLM中的视频理解
面向鲁棒的数学推理
面向未来基于空间的、高度可扩展的人工智能基础设施系统设计
PHUMA:物理基础的人形行走数据集
UniREditBench:一个统一的基于推理的图像编辑基准
将测试时计算最优缩放泛化为可优化图
UniLumos:基于物理合理反馈的快速统一图像与视频重光照
视觉模型在图结构理解中的被低估的力量
每一次激活都更进一步:将通用推理器扩展至1万亿开放语言基础
NOBLE - 具有生物启发的潜在嵌入的神经算子,用于捕捉生物神经元模型中的实验变异性
胶质细胞:一种受人类启发的用于自动化系统设计与优化的AI
上下文工程2.0:上下文工程的上下文
空间-SSRL:通过自监督强化学习增强空间理解
连续自回归语言模型
π𝚁𝙻:基于流的视觉-语言-动作模型的在线RL微调
INT 与 FP:细粒度低比特量化格式的综合研究
ThinkMorph:多模态交错思维链推理中的涌现特性
OS-Sentinel:通过在真实工作流中混合验证实现安全增强的移动GUI Agent
代理型组织时代:与语言模型共同学习组织之道
SPICE:在语料库环境中进行自对弈提升推理能力
Surfer 2:下一代跨平台计算机使用Agent
扩散模型在机器人控制中的应用条件探索
Agent 能否征服网络?探索 ChatGPT Atlas Agent 在网络游戏中的前沿应用
Kimi Linear:一种表达性强、高效的Attention架构
Emu3.5:原生多模态模型是世界学习者
模态冲突时:单模态推理不确定性如何主导MLLMs中的偏好动态
不要盲视你的VLA:面向OOD泛化的视觉表征对齐
当可视化成为推理的第一步时:MIRA,一个用于视觉链式思维的基准测试
VCode:一个以SVG作为符号化视觉表示的多模态编码基准
人工智能生产力指数(APEX)
帧链:通过帧感知推理推进多模态LLM中的视频理解
面向鲁棒的数学推理
面向未来基于空间的、高度可扩展的人工智能基础设施系统设计
PHUMA:物理基础的人形行走数据集
UniREditBench:一个统一的基于推理的图像编辑基准
将测试时计算最优缩放泛化为可优化图
UniLumos:基于物理合理反馈的快速统一图像与视频重光照
视觉模型在图结构理解中的被低估的力量
每一次激活都更进一步:将通用推理器扩展至1万亿开放语言基础
NOBLE - 具有生物启发的潜在嵌入的神经算子,用于捕捉生物神经元模型中的实验变异性
胶质细胞:一种受人类启发的用于自动化系统设计与优化的AI
上下文工程2.0:上下文工程的上下文
空间-SSRL:通过自监督强化学习增强空间理解
连续自回归语言模型
π𝚁𝙻:基于流的视觉-语言-动作模型的在线RL微调
INT 与 FP:细粒度低比特量化格式的综合研究
ThinkMorph:多模态交错思维链推理中的涌现特性
OS-Sentinel:通过在真实工作流中混合验证实现安全增强的移动GUI Agent
代理型组织时代:与语言模型共同学习组织之道
SPICE:在语料库环境中进行自对弈提升推理能力
Surfer 2:下一代跨平台计算机使用Agent
扩散模型在机器人控制中的应用条件探索
Agent 能否征服网络?探索 ChatGPT Atlas Agent 在网络游戏中的前沿应用
Kimi Linear:一种表达性强、高效的Attention架构
Emu3.5:原生多模态模型是世界学习者