HyperAI

2 个月前

谷歌于 2026 年 4 月 15 日正式推出最新一代文本转语音模型 Gemini 3.1 Flash TTS。该模型在语音自然度、情感表达和可控性方面实现显著提升，成为目前谷歌表现最自然的语音生成系统。在权威基准测试 Artificial Analysis 中，该模型以 1211 分的 Elo 值位居前列，凭借高音质与低成本的平衡优势，被评价为最具吸引力的语音生成方案。 Gemini 3.1 Flash TTS 的核心突破在于引入了“音频标签”功能。开发者可通过在文本中嵌入自然语言指令，精确控制语音的风格、语速和演绎方式，实现类似导演指导演员般的细腻操作。该功能支持场景设定以增强角色互动感，提供说话人级别的音色定制，并允许在中途切换语气。所有精细配置均可导出为 API 代码，确保跨项目声音的一致性。模型支持全球超过 70 种语言，旨在帮助开发者和企业构建全球化、本地化且富有表现力的语音应用。目前，该服务已通过 Gemini API 和 Google AI Studio 向开发者开放预览，并在 Vertex AI 及 Google Vids 中面向企业和 Workspace 用户提供试用。值得注意的是，该模型生成的所有音频均嵌入了 SynthID 数字水印，这种不可见的标记有助于识别 AI 生成内容，从而有效防范虚假信息传播。谷歌方面表示，Gemini 3.1 Flash TTS 将为下一代人工智能语音应用奠定坚实基础。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

Command Palette

谷歌推出Gemini 3.1 Flash TTS ，支持超70种语言

相关链接

Command Palette

谷歌推出Gemini 3.1 Flash TTS ，支持超70种语言

相关链接

Command Palette

谷歌推出Gemini 3.1 Flash TTS ，支持超70种语言

相关链接

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征

材料 AI 迈向「可解释时代」，日本团队破解高维光谱黑箱，锁定新材料发现关键特征