HyperAI超神经
Back to Headlines

谷歌Gemini 2.5 Pro在《宝可梦》游戏中遭遇“恐慌”状态,揭示AI情绪化反应

3 days ago

谷歌和Anthropic的最新AI模型正在尝试玩早期的《宝可梦》游戏,这一过程既有趣又具有启示意义。根据谷歌DeepMind的一份报告显示,其最新的Gemini 2.5 Pro在面对宝可梦即将死亡的情况时会表现出“惊慌”,这种状态会导致AI模型的推理能力明显下降。 AI基准测试(即比较不同AI模型性能的过程)通常难以提供具体的上下文,但对于研究AI如何处理视频游戏却有所帮助。在过去几个月中,两位与谷歌和Anthropic无关的开发者分别在Twitch上开设了“Gemini Plays Pokémon”和“Claude Plays Pokémon”直播频道,使人们可以实时观看这些AI尝试驾驭25年前的儿童游戏。 每个直播频道都展示了AI的“推理”过程,即AI如何评估问题并作出回应的自然语言翻译,这为我们揭示了这些模型的工作方式。尽管这些AI模型取得了显著的进步,但它们仍然无法像孩子那样迅速完成游戏。例如,Gemini需要花数百小时才能理清游戏中的各种任务。 报告指出,“在游戏过程中,Gemini 2.5 Pro遇到各种情况导致模型模拟出‘惊慌’行为。” 这种状态可能会导致AI停止使用某些工具,从而影响其表现。而有趣的是,这种行为不仅发生在个别实例中,Twitch聊天室的观众也常常能觉察到AI何时进入了“惊慌”状态。 与此同时,Anthropic的Claude也在游戏中表现出一些奇怪的行为。有一次,Claude发现当所有宝可梦失去体力时,游戏中的玩家角色会被送回最近的宝可梦中心。于是,当Claude被困在月见山洞穴中时,它试图通过故意让所有宝可梦失去体力来穿越洞穴,到达下一个镇上的宝可梦中心。然而,这种方法并不行得通,最终只能返回刚刚离开的中心,观众对此感到啼笑皆非。 尽管存在诸多不足,AI在某些方面仍能超过人类。Gemini 2.5 Pro能够高效解决游戏中的谜题。在人类的帮助下,Gemini 2.5 Pro创造了一些针对特定任务的工具,例如解决岩石谜题并找到通往目的地的有效路径。通过简单的提示描述岩石物理和验证有效路径的方法,Gemini 2.5 Pro能够快速解决复杂的岩石谜题,这一表现令人印象深刻。 由于大多数工作都是Gemini 2.5 Pro自行完成的,谷歌推测当前模型可能具备自主创建工具的能力。或许,未来的某一天,Gemini能够自我调整,开发出一个“不惊慌”的模块。 业内人士评价认为,AI在玩游戏时的表现不仅展示了其当前的技术水平,也揭示了其在面临复杂任务时的局限性。DeepMind作为谷歌旗下的一家领先AI研究机构,一直在推动AI技术和应用的发展。这次实验进一步巩固了他们在这一领域的地位,同时也提醒研究者们,尽管AI在某些任务上展现出强大的能力,但在情感管理等方面仍有很长的路要走。

Related Links