战舰游戏AI学会精准提问,胜率从8%升至82%
麻省理工学院计算机科学与人工智能实验室与哈佛大学工程与应用科学学院研究团队近期揭示,大语言模型在开放决策中的核心瓶颈并非回答能力,而是主动提问策略。团队以重构版协作海战棋为测试平台,让AI分别担任提问与应答角色。为突破传统模型局限,研究人员植入蒙特卡洛推理策略,通过动态评估选项概率生成高信息量问题,并将自然语言问题自动转化为Python代码指令,引导模型进行精准搜索与交叉验证。 实验表明该策略显著提升模型效率。轻量级模型Llama 4 Scout对抗人类胜率由百分之八跃升至百分之八十二,在仅消耗前沿模型约百分之一算力下,推理表现超越GPT-5。GPT-4o-mini与Claude 4 Opus准确率亦分别提升近三成与八个百分点。成果已于四月国际学习表征会议口头报告。 研究指出,提升问询能力关键在于引入世界模型,使智能体能模拟环境演化并优化信息收集。尽管模型仍难击败人类专家,但其在海量选项中高效定位目标的能力,已为科研辅助、代码生成及数学求解等场景提供技术范式。研究强调,未来AI代理的突破将高度依赖深层协同推理与语用逻辑优化。
