Command Palette
Search for a command to run...
衡量大语言模型中短文本的真实性
衡量大语言模型中短文本的真实性
Jason Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman William Fedus
Abstract
我们提出 SimpleQA,这是一个用于评估语言模型回答简短、事实性问题能力的基准测试。在设计该评估时,我们优先考虑了两个特性:首先,SimpleQA 具有挑战性,其数据是针对 GPT-4 的回答进行对抗性收集的;其次,答案易于评判,因为问题的构造确保了仅存在一个明确且无可争议的正确答案。SimpleQA 中的每个答案均被标记为正确、错误或未作答。理想情况下,模型应尽可能多地答对问题,同时对那些不确定正确答案的问题不进行尝试。SimpleQA 是一种简洁而有针对性的评估方法,用于检验模型是否“知道自己知道什么”。我们希望这一基准测试在未来几代前沿模型中仍能保持其相关性。