别担心,这项技术还不是很有说服力……
呃,但是还是觉得有点不太放心。
根据百度研究人员发表的一篇论文,AI 软件只需要听几遍别人的声音,就可以像一直八哥一样模仿对方说话。
如果这项技术完善后,就可以生成虚假的音频片段——音频里人们说着他们从未真正说过的内容。
这会不会让你感觉有点毛骨悚然。
百度的 AI 团队因其能开发逼真的语音工作而闻名。最近发布的最新研究项目展示了一个模型如何学习一个人声音的特征,并生成这个人完全没说过的内容。
不过,从模型中产生的最好版本的剪辑还是非常嘈杂并且质量比原始演讲低些。但研究人员开发的 “神经克隆系统” 设法保留了英国口音,听起来还算相似。
这种构建神经克隆系统的有两种不同方法:口语适应技术(speaker adaptation)和口语编码技术(speaker encoding)。
口语适应技术涉及用不同的人说话、不同的声音训练模型。该团队使用包含 2,484 个不同声源的 LibriSpeech 数据库来做到这一点。系统学习从人的语音中提取特征,以模仿他们的发音和节奏的细微细节。
口语编码技术涉及训练模型从说话人口中学习特定的语音并嵌入,并且在一个之前已经在许多人身上训练过的单独系统中重现音频样本。
在 LibriSpeech 训练之后,从另一个数据库中调出任意说话人的十个音频样本。 VCTK 数据集包含 109 位不同口音的英语为母语者的剪辑。基本上,在接受 LibriSpeech 数据集训练后,必须从 VCTK 数据集中的中复制新的声音。
论文的合著者、百度研究的研究科学家 Sercan Arik 说,与说话人适应技术相比,口语编码技术在现实生活中更容易实现,如数字助理等。
“口语适应技术要求用户从给定的文本中读取特定的话语,而说话人编码技术是随机话语。这意味着口语适应技术短期不会在用户设备上使用,因为这项技术在扩展用户上有更大挑战。相反,对于部署而言,说话人编码技术更容易,因为它速度快并且内存要求低——它甚至可以部署在智能手机上。”
对于 AI 这项技术是不是会被操纵并传播虚假信息,业内十分关注。
百度的最新研究显示:虽然有可能产生虚假语音,但目前的表现还不足愚弄人类。
更多样化的数据集是提升最终结果的一种方法,语音克隆深度学习模式本身还有一些改进的空间。
但这并非全是坏消息。语音克隆技术实际上也可以做许多好事。
妈妈可以用自己的声音配置一个有声书阅读器,这样在她不能亲自为孩子读书的时候,为孩子阅读睡前故事。
但是,随着这项技术的不断改进和普及,我们确实需要采取预防措施,以确保这项技术不会被利用并按预期使用。
编译自:Katyanna Quach 的博客:https://www.theregister.co.uk/2018/02/22/ai_human_voice_cloning/