下一部碟中谍,阿汤哥不再需要人类助手,有 AI 就够了

—— By 超神经

易容术在电影和小说中,已屡见不鲜,比如还在热映的《碟中谍 6》,班吉(阿汤哥的手下)就用假脸让大坏蛋漏出了本相。

纵观碟中谍系列, 面具变脸称得上是标配的招式。

给视频人物易容的 AI 魔术师

在现实中,实现变脸也非难事,化妆手段或者定制脸膜都能做到以假乱真,此外还有全民都趋之若鹜的「照骗」技术。

但对视频作品中的角色换脸还是不小的挑战,因为要对动态的人物影像换脸,需要很强的图像处理和替换能力。

作品拍到一半,又不得不换演员的时候,一般会更改剧本或者找替身加特效(也有剪辑掉角色戏份的做法),但这些方法代价巨大,还可能失掉水准。

比如保罗·沃克的意外去世,《速度与激情 7》就用了好几种方法去弥补,拍摄复杂度也翻了几番。

如果能对视频中的人物实现「换脸」,那这个难题就能迎刃而解了。

基于机器学习算法的变脸程序 DeepFakes,就是这样一个 AI 变脸魔术师。去年年底,「DeepFakes」横空出世,用户通过它,能将影片中的角色换成自己喜欢的「爱豆」,而且毫无违和感。

但由于该程序的强大魔力,从它面世以来,就常被用在色情影视的变脸上,人们通过一些程序操作,把色情片的主角变成自己乐意看到的人。emmm…

对它的滥用,很快就牵扯到侵权,隐私,安全层面的问题。最终因被认定非法合成色情视频,严重侵犯到肖像权和名誉权等问题,Twitter、PornHub、 Reddit 等网站,都纷纷和它划清界线,对外宣布禁止发布由 DeepFakes 合成的内容。

看起来它似乎是被打入了冷宫,但故事远没有结束。

DeepFakes 重获新生

虽然 DeepFakes 被几大社交网站彻底「河蟹」,但它没有被抹杀掉。

让它重获新生的,是色情行业的巨大驱动力。

美国加州的一家色情影视制作公司 Naughty America,前段时间通过 DeepFakes 推出一项私人定制服务。用户通过付费,能对 AV 电影中的角色进行变脸。

Naughty America 的付费服务项目中,除了角色变脸,还能更换视频背景。较短的视频转换只需几百美元,难度大的就花费不菲,比如有的花费就高达上千美元。

这些钱除了用来支付处理器的运算费用,还会用于购买人物肖像使用权。因此 Naughty America 算是解决了侵权问题,但局限就是只能转换成被授权的「脸」。

在转换效果上,Naughty America 对 DeepFakes 进行了升级,在面部和背景转换时融合效果很好,几乎不可分辨。不过,要想转换成自己想要的脸,用户需要提前上传大量的表情照片和视频(当然是不涉及侵权的内容),来作为 DeepFakes 的训练集。

为了保证安全性问题,Naughty America 会对视频添加水印,注明它们是经过处理的「虚假」视频。

那这个 AI 魔术师的「变脸」又是怎么实现的呢?我们只是怀着对技术好奇的心理,探究了一番。「正义脸.jpg」

DeepFakes 的招式拆解

DeepFakes 的核心是一个深度神经网络模型。主要包括一个编码器(Encoder)和一个解码器(Decoder)。在进行面部转换时,编码器对图像进行编码,然后经过解码器输出新的图像。

在应用过程中,要保证图像转换的质量,同时还要准确识别出转换对象。AI 模型会对原视频中的人物面部,和替换人员的面部分别进行编码和解码,以便在面部转换时,二者表情能一一对应起来。

用一个实例来说明。这里以美国脱口秀节目主持人 Jimmy Fallon 和 John Oliver 作为对象,简单说一下如何将 Fallon 的脸换成 Oliver 的。

整个过程分为三步。

两人的面部使用同一种编码器操作,解码器 A 输出 Fallon,解码器 B 输出 Oliver。

1)分别对 Fallon 和 Oliver 进行编码和解码,这是为了让模型能够从复杂的图像中,识别出 Fallon 和 Oliver 的面部表情,并做表情特征标记;

2)不断重复步骤 1),直到两个解码器能分别还原出两人的脸,同时让编码器通过学习,从人脸关键信息中能分辨出 Fallon 和 Oliver;

3)完成以上步骤后,将解码器 A 输出的照片重新编码,按照表情特征,直接使用解码器 B 将 Fallon 的脸换成 Oliver 的脸。

这样,Fallon 的脸就能被 Oliver 完美的替换掉。看似不可思议,但借助神经网络强大的数据处理能力,只要硬件不掉链子,是可以实现的。但由于训练集数据有限,简单表情的融合效果要远好于复杂表情。

DeepFakes 的软肋

尽管 DeepFakes 的融合效果很好,但就目前看来,在具体实践过程中会存在一些局限。

首先,DeepFakes 需要大量图片来训练

在一个视频中,想对视频中的人物进行变脸,需要 300 到 2000 张面部图片。而且,根据人脸表情的复杂度,以及新人物和原视频的匹配程度,所需数量会有不同。

这样一来,当前的换脸适用于在网上有大量照片的人,比如出境很高的明星。所以,DeepFakes 难以对所有人进行变脸。

其次,训练用的图片要有特点

AI 模型对训练的照片有依赖性。在上面那个变脸例子中, 因为数据集中缺少 Oliver 侧面的照片,DeepFakes 就不能还原出 Oliver 的侧面照。 因此想要某种面部表情,训练集的图片就必须包含大量此表情。

最后,训练换脸模型耗时耗力

在当前的技术下,视频的换脸过程代价不小。

在 DeepFakes 上完成一次普通的变脸大概需要 48 小时,而一个更细致的易容则需要训练大约 72 小时。

另外,模型的训练对硬件要求较高。租用一个 GPU 按每小时 0.5 美元来算,仅仅交换人物 A 和 B 的脸就要花费 36 美元,这还不包括宽带费以及 CPU 和 I/O 费用。算下来成本低不了。

不过,就算 DeepFakes 用起来挺奢侈,但据说 Naughty America 上仍有不少人为此掏了腰包,emmm… ,看来「性趣」的驱动力还是很惊人的。

视频内容变脸技术的未来

如果技术能降低成本的话,这个变脸魔术师 AI 将大有用武之地。虽然色情行业驱动了它的发展,但它可不只是色情公司敛财的工具。

除了最初提到的影视角色替换,DeepFakes 还能在录制回忆片或纪录片中发挥作用,它通过照片信息去还原已经去世的人物样貌,这将是特效和化妆师无法做到的。

还有文章提到,它还能用在广告业,名人们可以用它授权去拍些无聊的广告。

当然在投入这些应用之前,可能存在的侵权、隐私、安全、被滥用等诸多问题,还有待去一一解决。

那么问题来了,要是你能变脸,你想变成谁呢?