HyperAI超神经

谷歌近日正式发布Gemini 3.5实时语音翻译功能，旨在为跨语言沟通提供无缝的即时语音对语音转换体验。该功能依托先进的多模态大模型底层架构，在实现超低延迟语音直译的同时，能够精准保留说话者的原始语调、语速与音高，大幅降低机器翻译的机械感，提升跨语言交流的自然度。为应对生成式人工智能时代的内容伪造风险，谷歌在系统层面全面接入SynthID安全水印技术。所有经该功能生成的语音输出均会嵌入不可见数字标识，确保内容来源可验证且真实可信。此次技术落地标志着AI语音翻译在声纹保真与数据溯源维度实现关键跨越，将有效赋能实时跨国会议、多语种智能客服及听障人士辅助沟通等核心场景，为构建高可信的全球语音通讯生态提供基础设施支持。

相关链接

相关链接

相关链接

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

Command Palette

谷歌发布Gemini 3.5实时语音翻译功能

相关链接

Command Palette

谷歌发布Gemini 3.5实时语音翻译功能

相关链接

Command Palette

谷歌发布Gemini 3.5实时语音翻译功能

相关链接

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集

4 步出图/4K 画质/6 倍提速，PiD 用像素扩散统一解码与超分辨率输出；SA-3DAO：包含 1000 组真实图像与艺术家手工 3D 网格配对的数据集