Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

LLMs改进LLMs:用于测试时缩放的Agent发现

列表策略优化:基于组的RLVR作为对LLM响应单纯形的目标投影































LLMs改进LLMs:用于测试时缩放的Agent发现

列表策略优化:基于组的RLVR作为对LLM响应单纯形的目标投影






























Flow-OPD:流匹配模型上的策略蒸馏
MACE-Dance:用于音乐驱动舞蹈视频生成的运动-外观级联专家模型
重思推理密集型检索:评估与推进智能体搜索系统中的检索器
何时信任想象力:世界动作模型的自适应动作执行
采用 Judge 协调的大模型集成框架「Meno and Friends」进行高真实性多轮响应生成
MiA-Signature:近似全局激活以实现长上下文理解
连续潜扩散语言模型
技能1:基于强化学习的技能增强代理统一进化
超越语义相似性:通过直接与语料库交互重新思考代理搜索中的检索
MathNet:面向数学推理与检索的全局多模态基准测试
D-OPSD:用于持续微调步骤蒸馏扩散模型的策略自蒸馏方法
ZAYA1-8B 技术报告
PhysForge:为交互式虚拟世界生成基于物理的3D资产
HERMES++:迈向统一的3D场景理解与生成驾驶世界模型
OpenSearch-VL:前沿多模态搜索代理的开放配方
RLDX-1 技术报告
Stream-T1:用于流式视频生成的测试时扩展
Stream-R1:用于流式视频生成的可靠性-困惑度感知奖励蒸馏
Uni-OPD:统一基于策略的蒸馏与双重视角配方
AGENTIC-IMODELS:通过自动研究进化智能代理可解释性工具
HEAVYSKILL:作为代理驾驭中内在能力的深度思考
WindowsWorld:面向专业跨应用环境中自主GUI智能体的以进程为中心的基准测试
幻觉削弱信任;元认知是前进之路
X2SAM:图像与视频中的任意分割
OpenSeeker-v2:通过信息丰富和高难度轨迹推动搜索智能体的极限
PRISM:面向多模态强化学习的黑盒在线蒸馏预对齐
ARIS:通过对抗性多智能体协作实现自主研究
ProgramBench:语言模型能否从零开始重建程序?
基于GPU的高效加速图编辑距离计算
基于LLM的社会媒体情境信号危机报道不确定性评估
Flow-OPD:流匹配模型上的策略蒸馏
MACE-Dance:用于音乐驱动舞蹈视频生成的运动-外观级联专家模型
重思推理密集型检索:评估与推进智能体搜索系统中的检索器
何时信任想象力:世界动作模型的自适应动作执行
采用 Judge 协调的大模型集成框架「Meno and Friends」进行高真实性多轮响应生成
MiA-Signature:近似全局激活以实现长上下文理解
连续潜扩散语言模型
技能1:基于强化学习的技能增强代理统一进化
超越语义相似性:通过直接与语料库交互重新思考代理搜索中的检索
MathNet:面向数学推理与检索的全局多模态基准测试
D-OPSD:用于持续微调步骤蒸馏扩散模型的策略自蒸馏方法
ZAYA1-8B 技术报告
PhysForge:为交互式虚拟世界生成基于物理的3D资产
HERMES++:迈向统一的3D场景理解与生成驾驶世界模型
OpenSearch-VL:前沿多模态搜索代理的开放配方
RLDX-1 技术报告
Stream-T1:用于流式视频生成的测试时扩展
Stream-R1:用于流式视频生成的可靠性-困惑度感知奖励蒸馏
Uni-OPD:统一基于策略的蒸馏与双重视角配方
AGENTIC-IMODELS:通过自动研究进化智能代理可解释性工具
HEAVYSKILL:作为代理驾驭中内在能力的深度思考
WindowsWorld:面向专业跨应用环境中自主GUI智能体的以进程为中心的基准测试
幻觉削弱信任;元认知是前进之路
X2SAM:图像与视频中的任意分割
OpenSeeker-v2:通过信息丰富和高难度轨迹推动搜索智能体的极限
PRISM:面向多模态强化学习的黑盒在线蒸馏预对齐
ARIS:通过对抗性多智能体协作实现自主研究
ProgramBench:语言模型能否从零开始重建程序?
基于GPU的高效加速图编辑距离计算
基于LLM的社会媒体情境信号危机报道不确定性评估