Command Palette
Search for a command to run...
论文
每日更新的前沿人工智能研究论文,帮助您紧跟最新的人工智能趋势

ThinkTwice:面向推理与自我修正的 Large Language Models 联合优化研究

ACES:谁在测试测试集?面向代码生成任务的留一法(Leave-One-Out)AUC 一致性研究































ThinkTwice:面向推理与自我修正的 Large Language Models 联合优化研究

ACES:谁在测试测试集?面向代码生成任务的留一法(Leave-One-Out)AUC 一致性研究






























从 Agent Trajectories 中学习检索
Claw-Eval:迈向自主 Agent 的可信 Evaluation
Video-MME-v2:迈向全面视频理解 Benchmark 的下一阶段
GrandCode: 通过 Agentic Reinforcement Learning 实现竞技编程中的 Grandmaster 水平
LIBERO-Para:针对 VLA 模型改写鲁棒性的诊断性 benchmark 与评估指标
TriAttention:基于三角函数 KV Compression 的高效长文本 Reasoning
MinerU2.5-Pro:挑战大规模数据中心化文档解析的极限
Adam's Law:Large Language Models 上的文本频率定律
OpenWorldLib:一种统一的代码库与高级 World Models 的定义
WAXAL:大规模多语言非洲语言语音语料库
DRACO:一个面向深度研究准确性、完整性与客观性的跨领域基准
HuatuoGPT-o1:迈向基于 LLM 的医学复杂推理
AgentSocialBench:评估以人为本的 Agent 社交网络中的隐私风险
InCoder-32B-Thinking:面向推理的工业级代码世界模型
Agentic-MME:Agentic 能力究竟为多模态智能带来了什么?
Token Warping 助力多模态大语言模型(MLLMs)从邻近视角进行观测
自蒸馏的 RLVR
面向流式视频理解的简单基线
CORAL:迈向面向开放发现的多智能体自主进化
可操控视觉表示
SKILL0:用于技能内化的上下文智能体强化学习
生成式世界渲染器
潜空间:基础、演进、机制、能力与展望
DataFlex:面向大语言模型数据中心动态训练的统一框架
QuitoBench:一个高质量开源时间序列预测基准
Vision2Web:面向智能体验证的视觉网站开发分层基准测试
ViGoR-Bench:视觉生成模型距离零样本视觉推理器还有多远?
MiroEval:多模态深度研究 Agent 的过程与结果基准测试
终端 Agent 足以胜任企业自动化任务
ClawKeeper:通过技能、插件与监视器实现 OpenClaw Agents 的全面安全防护
从 Agent Trajectories 中学习检索
Claw-Eval:迈向自主 Agent 的可信 Evaluation
Video-MME-v2:迈向全面视频理解 Benchmark 的下一阶段
GrandCode: 通过 Agentic Reinforcement Learning 实现竞技编程中的 Grandmaster 水平
LIBERO-Para:针对 VLA 模型改写鲁棒性的诊断性 benchmark 与评估指标
TriAttention:基于三角函数 KV Compression 的高效长文本 Reasoning
MinerU2.5-Pro:挑战大规模数据中心化文档解析的极限
Adam's Law:Large Language Models 上的文本频率定律
OpenWorldLib:一种统一的代码库与高级 World Models 的定义
WAXAL:大规模多语言非洲语言语音语料库
DRACO:一个面向深度研究准确性、完整性与客观性的跨领域基准
HuatuoGPT-o1:迈向基于 LLM 的医学复杂推理
AgentSocialBench:评估以人为本的 Agent 社交网络中的隐私风险
InCoder-32B-Thinking:面向推理的工业级代码世界模型
Agentic-MME:Agentic 能力究竟为多模态智能带来了什么?
Token Warping 助力多模态大语言模型(MLLMs)从邻近视角进行观测
自蒸馏的 RLVR
面向流式视频理解的简单基线
CORAL:迈向面向开放发现的多智能体自主进化
可操控视觉表示
SKILL0:用于技能内化的上下文智能体强化学习
生成式世界渲染器
潜空间:基础、演进、机制、能力与展望
DataFlex:面向大语言模型数据中心动态训练的统一框架
QuitoBench:一个高质量开源时间序列预测基准
Vision2Web:面向智能体验证的视觉网站开发分层基准测试
ViGoR-Bench:视觉生成模型距离零样本视觉推理器还有多远?
MiroEval:多模态深度研究 Agent 的过程与结果基准测试
终端 Agent 足以胜任企业自动化任务
ClawKeeper:通过技能、插件与监视器实现 OpenClaw Agents 的全面安全防护