Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

ASTRA:智能体轨迹与强化环境的自动化合成

自蒸馏实现持续学习































ASTRA:智能体轨迹与强化环境的自动化合成

自蒸馏实现持续学习






























面向执行基础的自动化AI研究
DynamicVLA:一种用于动态物体操作的视觉-语言-动作模型
MMFineReason:通过开放数据驱动方法弥合多模态推理差距
OCRVerse:迈向端到端视觉-语言模型中的全面OCR
扩展嵌入空间在语言模型中的表现优于扩展专家模型
Idea2Story:一种将研究概念自动转化为完整科学叙事的流水线
各归其位:文本到图像模型空间智能的基准测试
Qwen3-ASR 技术报告
Insight Agents:一种基于LLM的多代理数据洞察系统
通过简单点预测实现像素级VLM感知
Youtu-VL:通过统一的视觉-语言监督释放视觉潜能
Innovator-VL:面向科学发现的多模态大语言模型
推进开源世界模型
更难才更好:通过感知难度的GRPO与多维度问题重表述提升数学推理能力
短窗口注意力实现长期记忆化
World Craft:通过文本创建可可视化世界的智能体框架
视觉生成通过多模态世界模型解锁类人推理
掩码深度建模用于空间感知
一种实用的VLA基础模型
AdaReasoner:用于迭代视觉推理的动态工具编排
AgentDoG:面向AI Agent安全与可信的诊断防护框架
Arcee Trinity 大型技术报告
让模型学会自我教学:在可学习性边缘的推理
ATLAS:多语言预训练、微调与解码多语言困境的自适应迁移缩放定律
iFSQ:仅需一行代码提升图像生成中的FSQ性能
弹性注意力:面向高效Transformer的测试时自适应稀疏率
科学图像生成:基准测试、方法论及下游应用价值
脚本即一切:一种面向长时程对话到影视视频生成的智能体框架
daVinci-Dev:面向软件工程的Agent原生中段训练
LLM能否帮你收拾烂摊子?基于LLM的应用就绪数据准备综述
面向执行基础的自动化AI研究
DynamicVLA:一种用于动态物体操作的视觉-语言-动作模型
MMFineReason:通过开放数据驱动方法弥合多模态推理差距
OCRVerse:迈向端到端视觉-语言模型中的全面OCR
扩展嵌入空间在语言模型中的表现优于扩展专家模型
Idea2Story:一种将研究概念自动转化为完整科学叙事的流水线
各归其位:文本到图像模型空间智能的基准测试
Qwen3-ASR 技术报告
Insight Agents:一种基于LLM的多代理数据洞察系统
通过简单点预测实现像素级VLM感知
Youtu-VL:通过统一的视觉-语言监督释放视觉潜能
Innovator-VL:面向科学发现的多模态大语言模型
推进开源世界模型
更难才更好:通过感知难度的GRPO与多维度问题重表述提升数学推理能力
短窗口注意力实现长期记忆化
World Craft:通过文本创建可可视化世界的智能体框架
视觉生成通过多模态世界模型解锁类人推理
掩码深度建模用于空间感知
一种实用的VLA基础模型
AdaReasoner:用于迭代视觉推理的动态工具编排
AgentDoG:面向AI Agent安全与可信的诊断防护框架
Arcee Trinity 大型技术报告
让模型学会自我教学:在可学习性边缘的推理
ATLAS:多语言预训练、微调与解码多语言困境的自适应迁移缩放定律
iFSQ:仅需一行代码提升图像生成中的FSQ性能
弹性注意力:面向高效Transformer的测试时自适应稀疏率
科学图像生成:基准测试、方法论及下游应用价值
脚本即一切:一种面向长时程对话到影视视频生成的智能体框架
daVinci-Dev:面向软件工程的Agent原生中段训练
LLM能否帮你收拾烂摊子?基于LLM的应用就绪数据准备综述