谷歌推出Gemini 3.1 Flash TTS ,支持超70种语言
谷歌于 2026 年 4 月 15 日正式推出最新一代文本转语音模型 Gemini 3.1 Flash TTS。该模型在语音自然度、情感表达和可控性方面实现显著提升,成为目前谷歌表现最自然的语音生成系统。在权威基准测试 Artificial Analysis 中,该模型以 1211 分的 Elo 值位居前列,凭借高音质与低成本的平衡优势,被评价为最具吸引力的语音生成方案。 Gemini 3.1 Flash TTS 的核心突破在于引入了“音频标签”功能。开发者可通过在文本中嵌入自然语言指令,精确控制语音的风格、语速和演绎方式,实现类似导演指导演员般的细腻操作。该功能支持场景设定以增强角色互动感,提供说话人级别的音色定制,并允许在中途切换语气。所有精细配置均可导出为 API 代码,确保跨项目声音的一致性。 模型支持全球超过 70 种语言,旨在帮助开发者和企业构建全球化、本地化且富有表现力的语音应用。目前,该服务已通过 Gemini API 和 Google AI Studio 向开发者开放预览,并在 Vertex AI 及 Google Vids 中面向企业和 Workspace 用户提供试用。值得注意的是,该模型生成的所有音频均嵌入了 SynthID 数字水印,这种不可见的标记有助于识别 AI 生成内容,从而有效防范虚假信息传播。谷歌方面表示,Gemini 3.1 Flash TTS 将为下一代人工智能语音应用奠定坚实基础。
