Gemini 3.1 Flash Live 推出,音频 AI 更自然可靠
谷歌于 2026 年 3 月 26 日推出了其迄今最高质量的音频模型 Gemini 3.1 Flash Live。该模型旨在显著提升语音交互的流畅度、自然度与可靠性,已广泛应用于 Google 各类产品中。对于普通用户,模型通过 Gemini Live 和 Search Live 提供服务,覆盖全球 200 多个国家和地区,支持实时多语言对话。新功能使 AI 能够保持更长的对话上下文,响应速度更快,并在复杂问答中表现更佳。 在开发者与企业端,该模型通过 Google AI Studio 的 API 接口开放,助力构建能处理复杂任务的语音智能体。 benchmarks 测试显示,Gemini 3.1 Flash Live 在复杂函数调用和长链条推理任务中表现卓越,综合得分领先于前代模型。其增强的语调理解能力使其能敏锐捕捉用户的语调变化、情绪波动甚至困惑,从而动态调整回复策略。此外,该模型具备在嘈杂环境中稳定运行的能力,已获 Verizon 和家得宝等企业的积极反馈。 值得关注的是,该模型集成了 SynthID 技术,对所有生成的音频内容添加不可见的数字水印,以便追踪和检测 AI 生成内容,有效防止虚假信息传播。这一举措体现了谷歌在推进生成式 AI 创新的同时,对安全与责任的重视。此次发布标志着语音 AI 在自然节奏与任务执行能力上的重大飞跃,为全球用户及开发者提供了更直观的语音交互体验。
