Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

世界模型的研究并不仅仅是将世界知识注入特定任务中

AOrchestra:面向智能体编排的子智能体自动生成































世界模型的研究并不仅仅是将世界知识注入特定任务中

AOrchestra:面向智能体编排的子智能体自动生成






























思维链中缺乏全局规划:揭示LLM的潜在规划时域
CodeOCR:视觉语言模型在代码理解中的有效性研究
DeepPlanning:基于可验证约束的长时域Agent规划基准测试
CL-bench:上下文学习基准
基于自蒸馏的强化学习
聊天机器人作为社交伴侣:人们如何感知机器的意识、类人程度以及社交健康益处
POPE:通过特权在策略探索学习在难题上进行推理
UniReason 1.0:面向世界知识对齐的图像生成与编辑的统一推理框架
闭环闭环:基于RPG-Encoder的通用仓库表示
视觉-DeepResearch基准:重新思考多模态大语言模型中的视觉与文本搜索
Vision-DeepResearch:在多模态大语言模型中激励深度研究能力
Kimi K2.5:视觉智能体智能
Green-VLA:面向通用机器人的分阶段视觉-语言-动作模型
PaperBanana:为AI科学家自动化学术插图
使用Gemini的半自主数学发现:Erdős问题案例研究
潜在思维链作为规划:将推理与语言化分离
实时对齐的奖励模型:超越语义
DenseGRPO:从稀疏到密集奖励用于流匹配模型对齐
DreamActor-M2:通过时空上下文学习实现通用角色图像动画
TTCS:用于自演化系统的测试时课程合成
ASTRA:智能体轨迹与强化环境的自动化合成
自蒸馏实现持续学习
面向执行基础的自动化AI研究
DynamicVLA:一种用于动态物体操作的视觉-语言-动作模型
MMFineReason:通过开放数据驱动方法弥合多模态推理差距
OCRVerse:迈向端到端视觉-语言模型中的全面OCR
扩展嵌入空间在语言模型中的表现优于扩展专家模型
Idea2Story:一种将研究概念自动转化为完整科学叙事的流水线
各归其位:文本到图像模型空间智能的基准测试
Qwen3-ASR 技术报告
思维链中缺乏全局规划:揭示LLM的潜在规划时域
CodeOCR:视觉语言模型在代码理解中的有效性研究
DeepPlanning:基于可验证约束的长时域Agent规划基准测试
CL-bench:上下文学习基准
基于自蒸馏的强化学习
聊天机器人作为社交伴侣:人们如何感知机器的意识、类人程度以及社交健康益处
POPE:通过特权在策略探索学习在难题上进行推理
UniReason 1.0:面向世界知识对齐的图像生成与编辑的统一推理框架
闭环闭环:基于RPG-Encoder的通用仓库表示
视觉-DeepResearch基准:重新思考多模态大语言模型中的视觉与文本搜索
Vision-DeepResearch:在多模态大语言模型中激励深度研究能力
Kimi K2.5:视觉智能体智能
Green-VLA:面向通用机器人的分阶段视觉-语言-动作模型
PaperBanana:为AI科学家自动化学术插图
使用Gemini的半自主数学发现:Erdős问题案例研究
潜在思维链作为规划:将推理与语言化分离
实时对齐的奖励模型:超越语义
DenseGRPO:从稀疏到密集奖励用于流匹配模型对齐
DreamActor-M2:通过时空上下文学习实现通用角色图像动画
TTCS:用于自演化系统的测试时课程合成
ASTRA:智能体轨迹与强化环境的自动化合成
自蒸馏实现持续学习
面向执行基础的自动化AI研究
DynamicVLA:一种用于动态物体操作的视觉-语言-动作模型
MMFineReason:通过开放数据驱动方法弥合多模态推理差距
OCRVerse:迈向端到端视觉-语言模型中的全面OCR
扩展嵌入空间在语言模型中的表现优于扩展专家模型
Idea2Story:一种将研究概念自动转化为完整科学叙事的流水线
各归其位:文本到图像模型空间智能的基准测试
Qwen3-ASR 技术报告