Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

生成式递归推理

安全预训练:迈向下一代安全人工智能































生成式递归推理

安全预训练:迈向下一代安全人工智能






























RubricEM:超越可验证奖励的基于评分指南的策略分解元强化学习
当视觉为声音代言
AutoResearchClaw:基于人机协作的自我强化自主研究
使用学习到的可靠性进行过程奖励
GoLongRL:面向能力的多任务对齐长上下文强化学习
OpenComputer:面向 Computer-Use Agent 的可验证软件世界
基于点互信息的推理强化学习中的反自蒸馏
通过对比对搜索实现靶向神经元调控
连续扩散模型在语言任务中与离散扩散模型具有相当的竞争力
KVPO:基于KV语义探索的自回归视频对齐的ODE原生GRPO
代码即房间:通过 Agent 代码合成从俯视图图像生成 3D 房间
用于自动研究的 AI:路线图与用户指南
SkillsVote:从收集、推荐到演进的 Agent 技能生命周期治理
Lance:通过多任务协同实现统一的多模态建模
LongLive-2.0:用于长视频生成的NVFP4并行基础设施
切片与切块:配置最优专家混合物
智能体驱动的网络架构发现:AIRA-Compose 与 AIRA-Design
学习预见:揭示在线策略蒸馏的解锁效率
DexJoCo:面向 MuJoCo 上手操作的任务导向基准与工具包
FashionChameleon:迈向实时且可交互的人-服装视频定制
CiteVQA:用于可信文档智能的证据归因基准测试
MMSkills:迈向通用视觉 Agent 的多模态技能
PhysBrain 1.0 技术报告
将价值模型重新引入:大语言模型强化学习中的生成式批判家用于价值建模
NEXUS:一种用于时间序列预测的智能体框架
MemEye:面向多模态 Agent 记忆的以视觉为中心的评价框架
SANA-WM:基于混合线性扩散Transformer的高效分钟级世界模型
MemLens:大视觉-语言模型中多模态长期记忆的基准测试
自蒸馏式 Agent 强化学习
因果强制++:用于实时交互式视频生成的可扩展少步自回归扩散蒸馏
RubricEM:超越可验证奖励的基于评分指南的策略分解元强化学习
当视觉为声音代言
AutoResearchClaw:基于人机协作的自我强化自主研究
使用学习到的可靠性进行过程奖励
GoLongRL:面向能力的多任务对齐长上下文强化学习
OpenComputer:面向 Computer-Use Agent 的可验证软件世界
基于点互信息的推理强化学习中的反自蒸馏
通过对比对搜索实现靶向神经元调控
连续扩散模型在语言任务中与离散扩散模型具有相当的竞争力
KVPO:基于KV语义探索的自回归视频对齐的ODE原生GRPO
代码即房间:通过 Agent 代码合成从俯视图图像生成 3D 房间
用于自动研究的 AI:路线图与用户指南
SkillsVote:从收集、推荐到演进的 Agent 技能生命周期治理
Lance:通过多任务协同实现统一的多模态建模
LongLive-2.0:用于长视频生成的NVFP4并行基础设施
切片与切块:配置最优专家混合物
智能体驱动的网络架构发现:AIRA-Compose 与 AIRA-Design
学习预见:揭示在线策略蒸馏的解锁效率
DexJoCo:面向 MuJoCo 上手操作的任务导向基准与工具包
FashionChameleon:迈向实时且可交互的人-服装视频定制
CiteVQA:用于可信文档智能的证据归因基准测试
MMSkills:迈向通用视觉 Agent 的多模态技能
PhysBrain 1.0 技术报告
将价值模型重新引入:大语言模型强化学习中的生成式批判家用于价值建模
NEXUS:一种用于时间序列预测的智能体框架
MemEye:面向多模态 Agent 记忆的以视觉为中心的评价框架
SANA-WM:基于混合线性扩散Transformer的高效分钟级世界模型
MemLens:大视觉-语言模型中多模态长期记忆的基准测试
自蒸馏式 Agent 强化学习
因果强制++:用于实时交互式视频生成的可扩展少步自回归扩散蒸馏