HyperAIHyperAI

Command Palette

Search for a command to run...

大型语言模型挑战四分位数谜题:ChatGPT o4-mini 表现最佳

自从成为Apple News+的订阅者后,我每天都会解决一个名为Quartiles的拼字游戏。这个习惯不仅帮助我缓解压力,也成为我生活的一部分。迄今为止,我已经解决了100多个Quartiles谜题,最长的连续解决了43天,但由于旅行中断了这一纪录。目前,我正在进行33天的连续挑战。 Quartiles是一个4x5字母方块拼词游戏,每个方块包含2到4个字母。玩家的目标是通过组合这些方块形成有效的英文单词,越长的单词得分越高。游戏还包括五组特定的四词组合(称为“Quartiles”),找到所有五组Quartiles会有额外的40分奖励。排行榜根据总积分排名,最高为“专家”。 为了评估不同大型语言模型(LLM)在Quartiles谜题上的表现,我选用了2025年5月5日的谜题作为测试样本。该谜题包含25个有效单词,最高可能得分为132分。我向每个模型提供了相同的提示,让他们识别所有可能的有效单词,并优先找到五组Quartiles。 以下是5月5日Quartiles谜题的具体规则: 每个方块只能使用一次。 方块内的字母不能重新排列。 方块必须按顺序选择(从左到右)。 单词可以由1到4个方块组成。 找到五组特定的四词组合可以获得额外40分奖励。 测试结果 OpenAI — ChatGPT 4o:GPT-4o是OpenAI的多模态旗舰模型,具备高级实时推理能力。然而,在这次Quartiles谜题中,其表现非常糟糕,仅识别出一个1词方块,得分1分。 OpenAI — ChatGPT o4-mini:这是OpenAI的轻量级高性能变体模型,在这次测试中表现较为理想。它找到了五个有效单词,包括一个1词方块(Pro)、一个2词方块(No)、两个3词方块(Provider、Script)和一个Quartile(Provisions),总得分16分。 Gemini 2.5 Pro:Google的最先进复杂任务模型,尽管展示了强大的推理和编码能力,但在Quartiles谜题中表现极差。耗时超过一分钟生成答案,仅识别出两个1词方块(Pro、No),总得分2分。此外,还生成了一些无效单词,如VISIOARDER、PROTYPCHE和DDERICEIPT。 Qwen3–235B-A22B:这是阿里云最新的旗舰模型,尽管在其他基准测试中表现出色,但在Quartiles谜题上却显得力不从心。花了大约8分钟才生成答案,仅识别出一个1词方块(No),总得分1分。 DeepSeek R1:这是一个开源的高效推理模型,在多项任务中表现出色。但在Quartiles谜题上,它同样耗时较长(约7分钟),只识别出两个1词方块(Pro、No),总得分2分。 Anthropic Claude 3.7 Sonnet:Anthropic的最先进模型之一。在这个谜题中,它识别出四个有效单词,但错过了多个显而易见的1词方块,最终总得分8分。 观察与总结 大多数模型错误地识别了一些字母组合(如ES和AR)为有效单词,这表明它们更倾向于使用常见的英语字母组合,即使这些组合不能形成完整的单词。几乎所有模型都生成了一些虚构或错误的单词,显示出它们在遵循游戏规则方面存在困难。在测试的所有模型中,ChatGPT o4-mini表现最佳,它成功找到了多个短词和一个Quartile,总得分为16分。 后续研究中,我计划探索不同的LLM如何应对方块的重新排列,即模拟同一谜题的多种配置,以进一步了解各个模型的表现差异。接下来的几天里,我会编程实现这项测试并分享结果。 业内评价与背景 业内人士普遍认为,尽管LLM在文字理解和推理方面表现出色,但在处理具体规则化任务时仍然面临挑战。OpenAI的GPT-4o虽然具备强大的多模态能力,但在这种特定的游戏中表现欠佳。相比之下,轻量级的GPT-4-mini则显示出了平衡的性能,尤其是在时间和准确性方面的折衷。Google的Gemini 2.5 Pro和阿里云的Qwen3–235B-A22B虽然在复杂任务中表现出色,但在快速生成有效单词方面还需改进。DeepSeek R1作为一种开源模型,表现符合预期,但仍有改进空间。总体而言,Anthropic的Claude 3.7 Sonnet在多样性和长词识别方面展现出了一定的优势,但也需要进一步优化。

相关链接

大型语言模型挑战四分位数谜题:ChatGPT o4-mini 表现最佳 | 热门资讯 | HyperAI超神经