废话比率 (Crapness Ratio) 是一个衡量标准,用于评估大型语言模型(LLM)给出的答案中废话或无效信息的比例。这个概念是由菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 于 2024 年提出来的。他在尝试使用 GPT-4o 解决动物过河难题时,提出了这个基准,即 LLM 给出的总答案与正确答案之间的比率。指出 GPT-4o 在最简单的题目上的错误,Claude 3.5 也无法幸免。该现象引发了对大型语言模型是否真的能够推理和规划的质疑。通过这个比率,可以量化模型输出的废话程度,从而评估模型的性能和改进方向。