Command Palette

Search for a command to run...

2 个月前

UQ:在未解问题上评估语言模型

Fan Nie Ken Ziyu Liu Zihao Wang Rui Sun Wei Liu Weijia Shi et al

UQ:在未解问题上评估语言模型

摘要

基准测试推动人工智能研究的进步。一个有效的基准测试应当兼具挑战性与现实性:问题应能对前沿模型构成挑战,同时又能反映真实世界的应用场景。然而,当前的基准测试范式正面临“难度—现实性”之间的矛盾:以考试形式设计的基准测试往往人为地提高难度,但实际应用价值有限;而基于真实用户交互的基准测试则往往偏向于简单、高频的问题。在本研究中,我们探索了一种截然不同的范式:在尚未解决的问题上评估模型。与一次性静态评分的基准不同,我们持续收集尚未被解决的问题,并通过验证者辅助筛选与社区验证机制,对模型进行异步评估。我们提出了UQ——一个包含500个具有挑战性且多样化的基准问题的测试平台,问题均来自Stack Exchange,涵盖计算机科学理论、数学、科幻、历史等多个领域,用于检验模型的推理能力、事实准确性以及网络浏览能力。UQ从构建之初就具备高难度与现实性:未解决的问题通常本身就很困难,且是人类在寻求答案时自然产生的,因此解决这些问题能直接带来现实世界的价值。 我们的贡献主要包括三个方面:(1)UQ-数据集及其构建流程,该流程结合规则过滤、大语言模型(LLM)评判与人工审核,确保问题质量(例如:定义清晰、具有挑战性);(2)UQ-验证者机制,采用复合验证策略,利用生成模型与验证模型之间的差距,提供评估信号,并对候选解决方案进行预筛选,以供人工审核;(3)UQ-平台,一个开放的协作平台,供领域专家共同验证问题与解决方案。目前,表现最优的模型仅在15%的问题上通过了UQ的验证,而初步的人工验证已成功识别出部分通过验证的正确答案。UQ为评估前沿模型在真实世界、开放性挑战中的表现开辟了新路径,其成功不仅意味着模型能力的突破,更推动了人类知识边界的拓展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供