英伟达Kaggle大师勇夺通用人工智能竞赛冠军
NVIDIA研究团队在周五夺得Kaggle ARC Prize 2025竞赛冠军,这一成绩被业内视为衡量人工智能向通用人工智能(AGI)迈进的重要风向标。NVIDIA Kaggle Grandmasters团队成员Ivan Sorokin和Jean-François Puget以27.64%的得分位居公开排行榜首位,其解决方案基于与ARC-AGI-2基准测试相同的测试数据集。赛后,该团队将性能进一步提升至29.72%,且每项任务成本仅20美分,展现出卓越的效率与成本控制能力。 该团队名为NVARC,其核心突破在于使用一个仅40亿参数的微调模型,便超越了更大、更昂贵的模型在ARC-AGI-2上的表现。这一成果标志着在高效、可扩展的类AGI推理方面取得关键进展。 ARC-AGI基准测试旨在评估AI系统在极少数示例下进行抽象推理和泛化的能力,采用基于网格的视觉谜题形式。ARC-AGI-2是其升级版,刻意避免与公开训练数据重叠,防止模型通过记忆或模式匹配作弊,从而更真实地检验系统是否具备真正的规则理解与推理能力。因此,该基准被视为衡量AI系统“从几乎零样本中学习”能力的核心指标。 与传统依赖大规模模型或暴力搜索的策略不同,NVARC团队采用三项简洁而高效的策略:合成数据生成、测试时训练(test-time training)以及严谨的工程实现。由于Kaggle竞赛对运行时间和计算资源有严格限制,传统大模型推理方法(如链式思维、工具调用、强化学习代理)难以适配。为此,NVARC将复杂推理过程前置,通过分阶段谜题生成、概念拆解和逐步增强的开源模型,构建了一个多样化的合成数据集。最终模型仅需识别模式并快速适应,无需执行复杂的程序搜索。 测试时训练则让模型在面对新谜题时,从其极小的示例集中动态学习,实现快速适应。这一方法已成为当前ARC-AGI领先性能的核心技术。 该系统成功依赖于NVIDIA NeMo工具套件,包括用于可扩展强化学习的NeMo RL和用于简化合成数据生成流程的NeMo Skills。这一成果不仅刷新了ARC-AGI-2的性能纪录,更展示了合成数据与动态学习在推动高效AI推理方面的巨大潜力。
