谷歌推出自动“隐式缓存”功能,显著降低Gemini AI模型使用成本
谷歌在Gemini API中推出了新功能——“隐式缓存”,旨在帮助第三方开发者更经济地使用其最新的人工智能模型。据谷歌称,这一功能可以为频繁传递到模型的上下文节省高达75%的成本。支持该功能的模型包括Gemini 2.5 Pro和2.5 Flash。 缓存作为一种广泛采用的技术实践,通过重用频繁访问或预先计算的数据来减少计算需求和成本。例如,缓存可以存储用户经常询问的问题的答案,这样当用户再次提出相同问题时,模型就不需要重复生成答案。此前,谷歌提供的缓存方式仅为显式缓存,即开发者需要自行定义最频繁使用的提示词。这种方式虽然能保证一定程度的成本节约,但通常需要大量手动操作,这让许多开发者感到不满。特别是在过去的一周内,关于显式缓存导致意外高额API账单的投诉达到了顶峰,Gemini团队为此道歉并承诺作出改变。 相比之下,新的隐式缓存完全自动化,无需开发者额外配置。默认情况下,Gemini 2.5模型中的所有请求都启用隐式缓存。当请求与之前的请求具有相同的前缀时,系统会自动匹配缓存中的数据,并将节省的成本直接返还给开发者。根据谷歌的开发者文档,对于2.5 Flash模型,最小的提示词数量为1,024个;而对于2.5 Pro模型,这个数字是2,048个。考虑到这些数值并不大,触发自动节省应该相对容易实现。每个千个令牌大致相当于750个单词。 为了最大化缓存命中率,谷歌建议开发者将重复性上下文放在请求的开头部分,而将可能变化的内容放在结尾。此外,值得注意的是,谷歌尚未提供任何第三方验证,证明新的隐式缓存系统能够如其所言自动节省成本。因此,具体效果还需等待早期用户的反馈。 业内人士对这一举措表示欢迎,认为这是降低人工智能模型使用成本的重要一步。同时,他们也提醒开发者应细心评估缓存策略,以避免类似的误收费问题。谷歌作为全球领先的技术公司,在人工智能领域持续推出创新功能,此次隐式缓存的引入展示了其在优化用户体验和降低成本方面所做的努力。然而,鉴于其显式缓存引发的争议,谷歌在推广这一新功能时显然需要更加谨慎。