HyperAI超神经

近日，人工智能初创公司Hume推出了一项新的“高真实声音克隆”功能，搭载在其最新迭代的共情语音接口（Empathic Voice Interface, 简称EVI）模型EVI 3中，该模型于上个月首次亮相。这款工具的目标是让用户能够上传一段30至90秒的音频，通过AI生成一个与自己声音高度相似的虚拟版本，进而进行语音互动，就像在与另一个人对话一样。我亲身体验了这一功能，但并未达到预期中的“恐怖谷效应”，即几乎完全真实的交互体验却让人感觉有些不自在。相反，EVI 3生成的声音更像是卡通版的我。虽然在一些方面，它确实做到了逼真的模仿，比如停顿时间和特有的语调，但在个性模仿上却显得不尽如人意。无论对话内容如何，AI都会以一种过于欢快、急于取悦他人的语气回应，这显然与我的实际性格有所偏差。此外，当被要求尝试不同的口音时，AI也表现得相当保守，不愿冒险尝试更多变化。在我第二次试验中，我上传的样本对话内容是关于乐团Led Zeppelin。随后，我在询问EVI 3关于暗物质的看法时，AI迅速将话题拉回到音乐上，将宇宙中的神秘力量比作赋予歌曲意义和力量的无形旋律。这种现象似乎表明，AI在某些情况下会固执地回溯至最初训练的数据点。 Hume声称，EVI 3能够做到这一点是因为其接受了海量文本和语音数据的训练，包括万亿级别的文本片段和数百万小时的语音资料。首席执行官兼首席科学家Alan Cowen表示，这种深度训练使模型能更好地捕捉人类语言的独特韵律和细微差别，从而实现更自然的语音表达。然而，许多AI专家对这种说法持有异议，认为这些模型主要是通过识别和重现大量训练数据中的模式来工作，而非真正理解语言的含义。尽管如此，EVI 3等新一代AI声音模型无疑展现了令人惊叹的进步。与以往声音生硬、缺乏情感的老式AI助手不同，这些新模型能在自然语言的基础上进一步模仿人类说话时的音调变化、情感表达和其他细腻特征。Hume和ElevenLabs等公司预测，这项技术将在娱乐和营销领域发挥重要作用。但也有人担忧，这些高度逼真的语音模拟可能为诈骗活动打开新的大门。最近就有一例，有人通过AI模仿美国国务卿马尔科·鲁比奥的声音来欺骗政府官员。值得注意的是，Hume默认会收集并匿名化用户使用EVI API产生的数据，以继续改进模型。不过，用户可以在个人设置中选择关闭这一功能，实现零数据保留。对于非API产品，包括在线试用版本，公司也提供了数据收集的开关选项。展望未来，尽管EVI 3目前仍存在不少局限，但其潜力不可小觑。随着技术的不断进步，未来的AI声音模型可能会更加逼真，不仅限于简单的对话，甚至可能在Zoom会议中代表用户发言。然而，这也可能成为不法分子利用的新工具。我们应当警惕这种快速发展的技术可能带来的负面影响，同时也要认识到，随着时间的推移，曾经的革命性创新正逐渐变得习以为常。业内评价及公司背景 Hume是一家专注于AI语音技术和共情研究的人工智能公司，创始人Alan Cowen曾在美国知名科技博客中详细介绍了公司的技术进展。尽管EVI 3的声音克隆功能尚未完全成熟，但业内普遍认为，这类技术的发展方向极具前景。然而，一些专家提醒，应谨慎对待高度仿真的语音模型所带来的安全风险。随着技术的不断完善，如何平衡创新与风险将是企业和社会面临的重要课题。

体验AI版的自己：Hume推出超逼真声音克隆功能

Related Links