HyperAI

谷歌在周一对其Gemini驱动的产品进行了三项重大更新，进一步强化其AI生态的实用性与多语言支持能力。首先，Gemini应用正式支持上传音频文件，回应了用户最迫切的需求——据谷歌实验室及Gemini副总裁Josh Woodward在X平台发布的消息，音频功能是用户呼声最高的功能之一。免费用户每日可处理最多10分钟的音频，且每天仅限5次提示；而AI Pro和AI Ultra订阅用户则可上传长达3小时的音频，所有用户均可一次性上传最多10个文件，支持多种格式，包括压缩包内的文件。其次，谷歌搜索的AI模式（AI Mode）新增了五种语言支持：印地语、印尼语、日语、韩语和巴西葡萄牙语。此次升级得益于Gemini 2.5与搜索功能的深度整合，使全球更多用户能以母语提出复杂问题，更深入地探索网络信息，提升跨语言信息获取体验。此外，Gemini旗下的研究工具NotebookLM也迎来功能升级。该工具现在可根据用户上传的文档、文件和多媒体内容，自动生成超过80种语言的报告，形式涵盖博客文章、学习指南、测验题、闪卡等。用户还可自定义报告结构、语气和风格，实现高度个性化输出。谷歌表示，该功能预计在本周内全面上线。值得注意的是，尽管Gemini应用此前尚未支持音频，但NotebookLM早已具备此功能，凸显其作为专业研究工具的定位。与此同时，谷歌近期在AI功能上持续发力：8月起，Gemini开始自动记忆用户偏好；9月，免费用户可使用Workspace的视频生成工具Vids；同月，谷歌相册升级至Veo 3视频生成引擎，免费用户可将静态照片生成4秒无声视频。此外，谷歌已更新其帮助中心页面，明确列出各订阅层级的使用限制。免费用户每日可使用5次Gemini 2.5 Pro提示，AI Pro用户为100次，AI Ultra用户则达500次。免费账户每日最多可生成5份深度研究报告和100张AI图像；若需更多图像，升级至Pro或Ultra账户可获得每日1000张的额度。这些更新标志着谷歌正系统性地完善其AI产品矩阵，从基础交互到专业应用，从多语言支持到内容生成形式，逐步构建一个更开放、更智能、更具可扩展性的AI服务体系。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

Gemini应用扩展至音频文件，使用限额正式公布

相关链接

Command Palette

Gemini应用扩展至音频文件，使用限额正式公布

相关链接

Command Palette

Gemini应用扩展至音频文件，使用限额正式公布

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟