HyperAIHyperAI

Command Palette

Search for a command to run...

谷歌翻译升级语音功能,支持实时多语种耳戴翻译

谷歌近日宣布推出Gemini 2.5 Flash Native Audio的更新版本,为实时语音代理(Live Voice Agents)带来更自然、更智能的语音交互能力。该模型现已集成至Google AI Studio、Vertex AI,并逐步上线Gemini Live和Search Live,首次为Search Live带来原生音频支持,让用户在搜索过程中实现更流畅、更人性化的实时对话体验,无论是即时头脑风暴、获取实时帮助,还是构建企业级客户服务系统,都更加高效。 此次更新的核心亮点是“原生语音”功能,使AI能更精准地理解复杂指令、处理多轮对话,并在交流中保持自然的语调与情感表达。多家企业已开始应用该技术并取得显著成果。例如,Shopify的Sidekick AI在使用后,用户几乎在短时间内忘记自己在与AI对话,部分用户甚至在长谈后表示感谢;United Wholesale Mortgage(UWM)通过集成该模型,已为合作中介成功生成超1.4万份贷款申请;Newo.ai的AI接待员则能实现嘈杂环境下的主讲人识别、中英双语自由切换,语音自然且富有情感。 此外,谷歌还推出一项全新“实时语音翻译”功能,目前处于测试阶段。该功能支持通过耳机实现流式语音到语音的实时翻译,完整保留说话人的语调、语速和语感,让跨语言交流更自然。在单向模式下,用户可佩戴耳机,将周围多语言环境的讲话实时翻译成自己母语;在双向对话中,系统能自动识别说话人并实时切换输出语言。例如,英语使用者与印地语用户交流时,对方会听到中文或英文的实时翻译,而自己则能听到对方的印地语原声。 该功能目前在Android版Google Translate应用中面向美国、墨西哥和印度的用户开放,支持超过70种语言,且兼容任何耳机。谷歌计划于2026年将该功能扩展至iOS及更多国家。同时,Translate应用的翻译能力也进一步升级,Gemini能更准确地处理俚语、习语和文化语境,如“stealing my thunder”将被正确理解为“抢了我风头”而非字面翻译。 此外,谷歌还扩大了语言学习工具的覆盖范围,新增德国、印度、瑞典、台湾等近20个国家和地区,支持英语与德语、中文、荷兰语、意大利语、瑞典语等多语种互练。新功能还加入学习天数追踪、个性化反馈等机制,提升用户学习动力,使体验更接近主流语言学习应用。

相关链接