Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

PAN:一种通用、可交互且长时程世界模拟的世界模型

潜空间的一小步,像素空间的一大步:适用于扩散模型的快速潜空间上采样适配器































PAN:一种通用、可交互且长时程世界模拟的世界模型

潜空间的一小步,像素空间的一大步:适用于扩散模型的快速潜空间上采样适配器






























YOLOv13:基于超图增强的自适应视觉感知实时目标检测
MonkeyOCR:基于结构识别关系三元组范式的文档解析
更安全的生成式AI的共识采样
Argus:面向端到端ADS的韧性导向安全保证框架
基于世界模型的策略优化用于视觉-语言-动作模型
LoopTool:用于鲁棒LLM工具调用的数据-训练闭环
超越事实检索:基于生成语义空间的RAG情景记忆
TiDAR:在扩散中思考,在自回归中表达
Time-to-Move:通过双时钟去噪实现无需训练的运动控制视频生成
Lumine:在3D开放世界中构建通用Agent的开源方案
从1,000个词生成一张图像:通过结构化描述增强文本到图像生成
KLASS:基于KL引导的掩码扩散模型快速推理
基于人类示范的计算机使用Agent定位
Wasm:构建结构化阿拉伯语交错多模态语料库的流水线
对话系统中的自适应多智能体响应优化
SPAN:单目3D目标检测中的空间投影对齐
高维系统伏尔泰拉级数的高效近似
SofT-GRPO:通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习
RedOne 2.0:重新思考社交网络服务中的领域特定LLM后训练
车站:一个用于AI驱动发现的开放世界环境
DRIVE:面向竞争性代码生成中可验证奖励强化学习的数据编排最佳实践
IterResearch:通过马尔可夫状态重构重新思考长时域Agent
HaluMem:评估Agent记忆系统中的幻觉
GVPO:面向大语言模型后训练的分组方差策略优化
ReCA:面向实时高效协作式具身自主Agent的集成加速
DexFlyWheel:一种可扩展且自提升的灵巧操作数据生成框架
NovaFlow:通过生成视频中的可操作流实现零样本操控
TreeSynth:通过树引导的子空间划分从零开始合成多样化数据
GTA:基于监督引导的大语言模型文本分类强化学习
使用PLACER建模蛋白质-小分子构象集合
YOLOv13:基于超图增强的自适应视觉感知实时目标检测
MonkeyOCR:基于结构识别关系三元组范式的文档解析
更安全的生成式AI的共识采样
Argus:面向端到端ADS的韧性导向安全保证框架
基于世界模型的策略优化用于视觉-语言-动作模型
LoopTool:用于鲁棒LLM工具调用的数据-训练闭环
超越事实检索:基于生成语义空间的RAG情景记忆
TiDAR:在扩散中思考,在自回归中表达
Time-to-Move:通过双时钟去噪实现无需训练的运动控制视频生成
Lumine:在3D开放世界中构建通用Agent的开源方案
从1,000个词生成一张图像:通过结构化描述增强文本到图像生成
KLASS:基于KL引导的掩码扩散模型快速推理
基于人类示范的计算机使用Agent定位
Wasm:构建结构化阿拉伯语交错多模态语料库的流水线
对话系统中的自适应多智能体响应优化
SPAN:单目3D目标检测中的空间投影对齐
高维系统伏尔泰拉级数的高效近似
SofT-GRPO:通过Gumbel重参数化软思考策略优化超越离散token的LLM强化学习
RedOne 2.0:重新思考社交网络服务中的领域特定LLM后训练
车站:一个用于AI驱动发现的开放世界环境
DRIVE:面向竞争性代码生成中可验证奖励强化学习的数据编排最佳实践
IterResearch:通过马尔可夫状态重构重新思考长时域Agent
HaluMem:评估Agent记忆系统中的幻觉
GVPO:面向大语言模型后训练的分组方差策略优化
ReCA:面向实时高效协作式具身自主Agent的集成加速
DexFlyWheel:一种可扩展且自提升的灵巧操作数据生成框架
NovaFlow:通过生成视频中的可操作流实现零样本操控
TreeSynth:通过树引导的子空间划分从零开始合成多样化数据
GTA:基于监督引导的大语言模型文本分类强化学习
使用PLACER建模蛋白质-小分子构象集合