解放原画师!Wav2Lip 用 AI 听音同步人物口型

「眼见为实」在 AI 技术面前已经失效了,换脸、对口型的技术层出不穷,效果越来越逼真。今天要介绍的 Wav2Lip 模型,只需一段原始视频与目标音频,就可将其合二为一。

近几年,好莱坞动画屡屡拿下超过 10 亿美元的票房,《疯狂动物城》、《冰雪奇缘》等等,它们个个品质过硬,单拿口型这一点来说,就非常严谨,动画人物口型与真人口型几乎一致。

而实现这样的效果,其实需要经历非常复杂的过程,需要耗费巨大的人力物力。所以,很多动画制作方为了节省成本,只采用比较简单的口型示意。

现在,AI 正在努力减轻原画师的工作。来自印度海德拉巴大学和英国巴斯大学的团队,今年发表在 ACM MM2020 的一篇论文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild》提出一个叫做 Wav2Lip 的 AI 模型,只需一段人物视频和一段目标语音,就能让其合二为一,配合得天衣无缝。

对口型大法 Wav2Lip,效果如此突出

要说对口型的技术,此前其实已经有很多,甚至在基于深度学习的技术出现之前,就有一些技术使角色的嘴唇形状与实际的语音信号相匹配。

但这个 Wav2Lip 在一众方法中,显示出了绝对优势。现有的其它方法,主要是基于静态图像,来输出与目标语音匹配的唇形同步视频,但对于动态的、在讲话的人物,唇形同步往往效果不佳。

而 Wav2Lip 则可以直接将动态的视频,进行唇形转换,输出与目标语音相匹配的视频结果。

此外,不仅是视频,还能给动图对口型,从此以后表情包又丰富了!

作者选取部分动图匹配口型

人工评估表明,与现有方法相比,Wav2Lip 生成的视频,在 90% 以上的时间中优于现有方法。

模型实际效果究竟如何?超神经进行了一番测试。以下视频展现了官方 demo 的运行效果,输入素材分别选取了官方提供的测试素材,以及超神经选取的中、英文测试素材。

输入的原视频中人物均未讲话

经过 AI 模型操作,实现了人物口型与输入语音同步

我们看到,官方 demo 的动画视频中,效果堪称完美。在超神经真人测试中,除了嘴唇稍有变形和抖动之外,整体唇形同步效果还是比较准确的。

教程已出,三分钟学会

看到这里,你是不是也跃跃欲试了呢?如果你已经有了一个大胆的想法,那么不如从现在就开始动手吧。

目前,该项目已在 GitHub 开源,作者提供了交互演示、Colab notebook 以及完整的训练代码,推断代码和预训练模型以及教程。

项目具体信息如下:

项目名称:Wav2Lip

GitHub 地址:

https://github.com/Rudrabha/Wav2Lip

项目运行环境:

  • 语言:Python 3.6+
  • 视频处理程序:ffmpeg

人脸检测预训练模型下载:

https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth

除了准备以上环境,还需要下载安装以下软件包:

  • librosa==0.7.0
  • numpy==1.17.1
  • opencv-contrib-python>=4.2.0.34
  • opencv-python==4.1.0.25
  • tensorflow==1.12.0
  • torch==1.1.0
  • torchvision==0.3.0
  • tqdm==4.45.0
  • numba==0.48

不过,你也可以不用准备这些繁琐的程序,仅需准备一张图片/一段人物视频(CGI 人物亦可)+ 一段音频(合成音频亦可),就可在国内的机器学习算力容器服务平台,直接一键运行。

传送门:https://openbayes.com/console/openbayes/containers/EiBlCZyh7k7 

目前,该平台还能薅羊毛,每周都赠送 vGPU 的使用时长,人人都可轻松完成教程。

完成整个教程仅需要 3 – 5 分钟

该模型有 Wav2Lip,Wav2Lip+GAN,以及 Expert Discriminator 三种权重。其中,后两者的效果都明显优于单独使用 Wav2Lip 模型,本教程中使用的权重即 Wav2Lip+GAN。

该模型作者强调,其开放源代码的所有结果仅应用于研究/学术/个人目的,模型基于 LRS2(Lip Reading Sentences 2)数据集训练,因此严禁任何形式的商业用途。

为了避免技术被滥用,研究者还强烈建议,使用 Wav2Lip 的代码和模型创建的任何内容都必须标明是合成的。

背后关键技术:唇形同步辨别器

Wav2Lip  是如何听音频对口型这件事,做到了如此精确?

据介绍,实现突破的关键在于,研究者采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。

此外,该研究通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。

作者使用一个预先训练的鉴别器及时准确地检测唇形同步错误

研究者表示,他们的 Wav2Lip 模型几乎是万能的,适用于任何人脸、任何语音、任何语言,对任意视频都能达到很高的准确率,可以无缝地与原始视频融合,还可以用于转换动画人脸,并且导入合成语音也是可行的。

可以想象,这个神器可能又会造就一波鬼畜视频了……

论文地址:

Demo 地址:

https://bhaasha.iiit.ac.in/lipsync/

—— 完 ——