HyperAI

谷歌和Anthropic的最新AI模型正在尝试玩早期的《宝可梦》游戏，这一过程既有趣又具有启示意义。根据谷歌DeepMind的一份报告显示，其最新的Gemini 2.5 Pro在面对宝可梦即将死亡的情况时会表现出“惊慌”，这种状态会导致AI模型的推理能力明显下降。 AI基准测试（即比较不同AI模型性能的过程）通常难以提供具体的上下文，但对于研究AI如何处理视频游戏却有所帮助。在过去几个月中，两位与谷歌和Anthropic无关的开发者分别在Twitch上开设了“Gemini Plays Pokémon”和“Claude Plays Pokémon”直播频道，使人们可以实时观看这些AI尝试驾驭25年前的儿童游戏。每个直播频道都展示了AI的“推理”过程，即AI如何评估问题并作出回应的自然语言翻译，这为我们揭示了这些模型的工作方式。尽管这些AI模型取得了显著的进步，但它们仍然无法像孩子那样迅速完成游戏。例如，Gemini需要花数百小时才能理清游戏中的各种任务。报告指出，“在游戏过程中，Gemini 2.5 Pro遇到各种情况导致模型模拟出‘惊慌’行为。” 这种状态可能会导致AI停止使用某些工具，从而影响其表现。而有趣的是，这种行为不仅发生在个别实例中，Twitch聊天室的观众也常常能觉察到AI何时进入了“惊慌”状态。与此同时，Anthropic的Claude也在游戏中表现出一些奇怪的行为。有一次，Claude发现当所有宝可梦失去体力时，游戏中的玩家角色会被送回最近的宝可梦中心。于是，当Claude被困在月见山洞穴中时，它试图通过故意让所有宝可梦失去体力来穿越洞穴，到达下一个镇上的宝可梦中心。然而，这种方法并不行得通，最终只能返回刚刚离开的中心，观众对此感到啼笑皆非。尽管存在诸多不足，AI在某些方面仍能超过人类。Gemini 2.5 Pro能够高效解决游戏中的谜题。在人类的帮助下，Gemini 2.5 Pro创造了一些针对特定任务的工具，例如解决岩石谜题并找到通往目的地的有效路径。通过简单的提示描述岩石物理和验证有效路径的方法，Gemini 2.5 Pro能够快速解决复杂的岩石谜题，这一表现令人印象深刻。由于大多数工作都是Gemini 2.5 Pro自行完成的，谷歌推测当前模型可能具备自主创建工具的能力。或许，未来的某一天，Gemini能够自我调整，开发出一个“不惊慌”的模块。业内人士评价认为，AI在玩游戏时的表现不仅展示了其当前的技术水平，也揭示了其在面临复杂任务时的局限性。DeepMind作为谷歌旗下的一家领先AI研究机构，一直在推动AI技术和应用的发展。这次实验进一步巩固了他们在这一领域的地位，同时也提醒研究者们，尽管AI在某些任务上展现出强大的能力，但在情感管理等方面仍有很长的路要走。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

谷歌Gemini 2.5 Pro在《宝可梦》游戏中遭遇“恐慌”状态，揭示AI情绪化反应

相关链接

Command Palette

谷歌Gemini 2.5 Pro在《宝可梦》游戏中遭遇“恐慌”状态，揭示AI情绪化反应

相关链接

Command Palette

谷歌Gemini 2.5 Pro在《宝可梦》游戏中遭遇“恐慌”状态，揭示AI情绪化反应

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟