人工智能如何让Meet实现无缝实时语言翻译
人工智能技术的突破,让Google Meet的实时语音翻译功能成为现实。Meet音频工程团队负责人Fredric表示,两年前团队开始研发语音翻译功能时,现有模型只能实现离线翻译,无法满足实时通话需求。他们意识到,若要实现面对面的跨语言即时交流,必须突破延迟瓶颈。于是,团队与谷歌DeepMind展开合作,共同推进技术进展。 过去,语音翻译依赖“转写—翻译—合成”三步流程,导致延迟高达10到20秒,严重干扰自然对话。此外,合成语音缺乏原声特征,听起来机械且不真实。真正的突破来自“大模型”技术的应用——并非传统的大语言模型,而是能实现“端到端”一次完成的语音翻译模型。正如产品管理负责人Huib所言:“输入语音,几乎立即就能输出翻译后的语音。”这一技术将延迟压缩至2至3秒,恰好达到人类听觉自然反应的“甜点区间”——太快难以理解,太慢又影响交流节奏。 实现这一目标并非易事。团队面临诸多挑战,包括不同口音、背景噪音和网络波动对翻译质量的影响。为此,Meet与DeepMind团队携手,通过大量真实场景测试不断优化模型。他们还邀请语言学家参与,深入理解语言间的细微差异。例如,西班牙语、意大利语、葡萄牙语和法语因语系相近,整合相对顺利;而德语等结构差异较大的语言则因语法、习语和表达习惯不同,面临更大挑战。 目前系统仍以直译为主,有时会引发幽默或误解。但团队相信,随着更先进的大语言模型融入,未来将能更精准地捕捉语气、情感和讽刺意味,实现真正自然、智能的跨语言实时对话。这一进展标志着AI在语音处理领域的重大飞跃,也正在重塑全球协作的沟通方式。
