50 亿次播放,1700 万人参与的「变身漫画」,抖音团队接受 CSDN 采访

近年来,各种 P 图、美颜、特效应用都深受用户喜爱。最近,抖音最新推出的「变身漫画」特效又火上了热搜。爆火的背后,有哪些关键技术?

编辑:神经小兮

内容整理自 CSDN、字节范儿(文末附链接)

最近,抖音上的一款「变身漫画」特效火了,从路人到明星,都忍不住玩儿上一把。

只需一秒,便可看到二次元世界的自己,拥有水汪汪的大眼睛和白皙的皮肤,看上去元气满满。

乘风破浪的万茜姐姐和唱跳 rap 的蔡徐坤都参与了

截止目前,在抖音上已经有 1770 多万用户使用「变身漫画」特效制作了视频,这一系列视频,累积获得 56.7 亿次播放。

一年前的灵感,用 GAN 攻破

虽说这款特效玩起来无门槛,变身仅需一秒,但其实爆款的背后,是抖音影像团队长时间的研发与打磨。

2018 年,字节跳动专门成立了影像团队,支持抖音、火山、轻颜等全系产品的打磨,其中包括长期探索真人风格化玩法,力图持续打造击中用户的特效。

影像特效、工具岗位持续大量招聘

科技媒体 CSDN 第一时间对相关团队进行了采访,我们作了部分引用:

这次推出的「变身漫画」项目,灵感是来自大约一年前的一次脑暴会议。

了解到研发同学在一次脑暴会中,提起「让真人秒变漫画脸」的想法。这一想法让团队都兴奋起来。

说做就做。2019 年 9 月,抖音影像团队迅速拉上协作支持的研发、设计等同事一起参与进来。

抖音这次推出的漫画变身特效主要技术也还是 GAN,但与以往相比也有差异之处,团队在 GAN 的基础上,加入了新的尝试。

实际上,抖音实时漫画特效在最终技术选型之前,曾对比过大量当前生成技术方法,包括生成漫画的方法,如 ugatit,也有做其他任务的方法,如 MUNIT 等。

但经调研发现,当前的 GAN 用于漫画生成、风格迁移等任务存在一些问题。

首先是训练不稳定,其次是超参数进行一些微小的调整,就可能对结果产生很大影响,再者还容易遇到梯度消失的问题。

对此,抖音的改善方案是尝试多种 loss,包括 WGAN、LSGAN 等,但目前为止还是没有银弹(意为没有万金油。在软件工程中,银弹一般指可解决复杂问题的简单、奇妙方案),所以需要在实验过程中监控梯度的变化。

连续一两个月,团队都在训练新模型

抖音的技术团队也表示,在漫画视频技术探索过程中,技术团队在初期尝试中屡屡碰壁,在前期预研中,输出版本效果与图片版相差较大,且性能也未能达标。

在几次尝试效果均不理想的情况下,团队内部一度对实时漫画的可行性也出现了怀疑。

但好在几次失败的尝试后,在总结经验时有人指出了关键所在:之前的模型结构单一,不同模型的优缺点不完全一致。

于是,技术团队尝试了模型嫁接的方法,用不同的模块拼接出新模型,大幅提升了漫画的生成质量。

经历长时间打磨,团队成员能轻松分辨各模型的优劣

在质量达标后,又通过计算每层的重要程度来裁剪模型,最终确定了实时版模型的结构。

效果产品团队也参与模型效果调优,总结出参数与效果之间的定量关系,通过微调参数优化模型。最终,这个爆款终于诞生。

实时变身漫画难点多,如何攻克?

「变身漫画」最吸引人的地方之一,就是它的实时变换。

那么,与静态图片处理相比,实现实时漫画处理究竟难在哪里呢,尤其是在手机端实现?

抖音技术团队表示,实时视频漫画处理难度还是挺高的,比如:

  • 首先,模型本身计算量需要非常小,在有限的计算量下要达到比较好的漫画效果,需要让每一次运算都要充分发挥其价值;
  • 其次,抖音的用户众多,用户使用的机型性能差距也非常大,需要专门研发复杂、定制化的模型下发策略。

为了满足不同层次用户的需求,抖音研发了复杂的模型下发策略,实现了模型的定制化下发,这在最终保证了实时漫画的成功上线,在效果和性能方面达到实时漫画的要求。

此外,抖音漫画特效启用了字节跳动自研的推理引擎 ByteNN。这个针对端侧算法快速落地的推理引擎,不仅支持 CPU 和 GPU 的通用计算能力,也充分发挥了厂商 NPU/DSP 硬件的加速能力,保证了实时漫画能够稳定支持抖音海量的用户群体。

当然,这个实时漫画特效,目前的算法针对一些特殊场景还是有一定优化空间,在之后的迭代中也会从模型本身和推理引擎两个方面入手,提升模型效果的同时优化推理性能。

字节跳动影像团队:漫画滤镜既要像,还得美

近年来,将影像进行漫画、手绘风格的特效也是层出不穷,如何脱颖而出成为爆款,这是团队所面临的难题。

根据字节跳动影像团队的大彭的说法,最关键的,就是要给用户带来惊喜和共鸣。

「变身漫画」特效团队一方面,实现了既「像」又「美」,另一方面,通过技术的不断打磨,实现了千人千面的实时变换效果。

项目组的玉辰说,「我们定义了『精致美』和『极致像』两大特点。既要全面保留用户特征、像本人,又要生成出漫画独有的艺术美感。」

此外,团队结合日漫、国漫、韩漫中形象中的特长,设计出了最终版的漫画,审美获得了广泛认可。

变身漫画特效:早期版本(上)与最终版本(下)对比 

在玩法上,团队最终选取了 6 个道具创意,比如用手滑动、点头等变换方式,改善交互体验,照顾到了不同年龄、层级和喜好的用户需求。

GAN:图像生成领域的重要法宝

我们说回这个爆款的基础技术——GAN(Generative Adversarial Networks)生成式对抗网络。

近年来,基于 GAN 的研究如火如荼。每次刷屏的图像生成、转换的研究成果背后,几乎都离不开 GAN 技术。

2014 年,Ian Goodfellow 及其团队,于 2014 年发表的论文《Generative Adversarial Networks》中,开创性地提出一种深度学习模型 GAN。

出生于 1985 年的 Ian Goodfellow为苹果特别项目组机器学习负责人、前谷歌大脑科学家

GAN 模型的主要结构包括生成器 G(Generator)和判别器 D(Discriminator)。该模型的训练则是处于一种对抗博弈状态中的。

运用对抗博弈思想,在训练过程中,生成器 G 的目标就是尽量生成真实的图片去欺骗判别器 D。而 D 的目标就是尽量把 G 生成的图片和真实的图片分别开来。这样,G 和 D 便构成了一个动态的「博弈过程」。

最终博弈的结果呢?就是在理想状态下,G 可以生成足以「以假乱真」的图片。

通俗地来说,G 就像是一个艺术品赝品制作者,想方设法骗过鉴别器 D,最终得到一个正品赝品难以分辨的作品。

近年来,GAN 的应用可以说非常丰富了。比如,用来生成动漫人物:

2017 年,来自复旦、同济等大学的团队打造出基于 GAN 的动漫人物头像生成器

利用 CycleGAN   进行图像转换:

基于 CycleGAN 的图像转换,真实照片变成各种绘画风格

2018 年英伟达提出的 StyleGAN,生成的假肖像图:

此研究结果当时一发布,便震惊国内外

资料来源:

https://mp.weixin.qq.com/s/lLfp8F6G2uHxYpCMCF1Tmw

https://mp.weixin.qq.com/s/WeZD__I7Y98Fg18pEZ9L9g

—— 完 ——