HyperAI

自从成为Apple News+的订阅者后，我每天都会解决一个名为Quartiles的拼字游戏。这个习惯不仅帮助我缓解压力，也成为我生活的一部分。迄今为止，我已经解决了100多个Quartiles谜题，最长的连续解决了43天，但由于旅行中断了这一纪录。目前，我正在进行33天的连续挑战。 Quartiles是一个4x5字母方块拼词游戏，每个方块包含2到4个字母。玩家的目标是通过组合这些方块形成有效的英文单词，越长的单词得分越高。游戏还包括五组特定的四词组合（称为“Quartiles”），找到所有五组Quartiles会有额外的40分奖励。排行榜根据总积分排名，最高为“专家”。为了评估不同大型语言模型（LLM）在Quartiles谜题上的表现，我选用了2025年5月5日的谜题作为测试样本。该谜题包含25个有效单词，最高可能得分为132分。我向每个模型提供了相同的提示，让他们识别所有可能的有效单词，并优先找到五组Quartiles。以下是5月5日Quartiles谜题的具体规则：每个方块只能使用一次。方块内的字母不能重新排列。方块必须按顺序选择（从左到右）。单词可以由1到4个方块组成。找到五组特定的四词组合可以获得额外40分奖励。测试结果 OpenAI — ChatGPT 4o：GPT-4o是OpenAI的多模态旗舰模型，具备高级实时推理能力。然而，在这次Quartiles谜题中，其表现非常糟糕，仅识别出一个1词方块，得分1分。 OpenAI — ChatGPT o4-mini：这是OpenAI的轻量级高性能变体模型，在这次测试中表现较为理想。它找到了五个有效单词，包括一个1词方块（Pro）、一个2词方块（No）、两个3词方块（Provider、Script）和一个Quartile（Provisions），总得分16分。 Gemini 2.5 Pro：Google的最先进复杂任务模型，尽管展示了强大的推理和编码能力，但在Quartiles谜题中表现极差。耗时超过一分钟生成答案，仅识别出两个1词方块（Pro、No），总得分2分。此外，还生成了一些无效单词，如VISIOARDER、PROTYPCHE和DDERICEIPT。 Qwen3–235B-A22B：这是阿里云最新的旗舰模型，尽管在其他基准测试中表现出色，但在Quartiles谜题上却显得力不从心。花了大约8分钟才生成答案，仅识别出一个1词方块（No），总得分1分。 DeepSeek R1：这是一个开源的高效推理模型，在多项任务中表现出色。但在Quartiles谜题上，它同样耗时较长（约7分钟），只识别出两个1词方块（Pro、No），总得分2分。 Anthropic Claude 3.7 Sonnet：Anthropic的最先进模型之一。在这个谜题中，它识别出四个有效单词，但错过了多个显而易见的1词方块，最终总得分8分。观察与总结大多数模型错误地识别了一些字母组合（如ES和AR）为有效单词，这表明它们更倾向于使用常见的英语字母组合，即使这些组合不能形成完整的单词。几乎所有模型都生成了一些虚构或错误的单词，显示出它们在遵循游戏规则方面存在困难。在测试的所有模型中，ChatGPT o4-mini表现最佳，它成功找到了多个短词和一个Quartile，总得分为16分。后续研究中，我计划探索不同的LLM如何应对方块的重新排列，即模拟同一谜题的多种配置，以进一步了解各个模型的表现差异。接下来的几天里，我会编程实现这项测试并分享结果。业内评价与背景业内人士普遍认为，尽管LLM在文字理解和推理方面表现出色，但在处理具体规则化任务时仍然面临挑战。OpenAI的GPT-4o虽然具备强大的多模态能力，但在这种特定的游戏中表现欠佳。相比之下，轻量级的GPT-4-mini则显示出了平衡的性能，尤其是在时间和准确性方面的折衷。Google的Gemini 2.5 Pro和阿里云的Qwen3–235B-A22B虽然在复杂任务中表现出色，但在快速生成有效单词方面还需改进。DeepSeek R1作为一种开源模型，表现符合预期，但仍有改进空间。总体而言，Anthropic的Claude 3.7 Sonnet在多样性和长词识别方面展现出了一定的优势，但也需要进一步优化。

相关链接

相关链接

相关链接

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍

Command Palette

大型语言模型挑战四分位数谜题：ChatGPT o4-mini 表现最佳

相关链接

Command Palette

大型语言模型挑战四分位数谜题：ChatGPT o4-mini 表现最佳

相关链接

Command Palette

大型语言模型挑战四分位数谜题：ChatGPT o4-mini 表现最佳

相关链接

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍

MIT 开发 Pichia-CLM 模型学习酵母 DNA「语言」，外源蛋白产量最高可提高至 3 倍