从大佬向买数据说起,聊聊 GAN 加密

By 超神经

这几日国内曝出一件涉嫌数据泄露的要案,涉案公司多达 11 家,查获公民信息数据 4000 GB、数百亿条。其中,国内知名大数据公司也被波及。

此案涉及的数据隐私性高,案件涉及的上网 URL 数据,包含了手机号、上网基站代码等 40 余项信息要素,记录手机用户具体的上网行为,甚至部分数据能够直接进入公民个人账号主页。

想发展 AI 不可避免侵占数据?

对全球任何一家 AI 公司的研发工程师来说,能够获得大量真实数据,对于研发 AI 模型是非常有帮助的,如果数据的纯度够高的话,就更好了。他们可以更方便的处理数据,更高效地比较和评估模型,从而得出正确的解决方案,应对现实生活中的问题。

从大佬向数据堂买数据说起,聊聊 GAN 加密

然而,受制于数据保密问题,这些巨头们能共享的数据相当有限。所以向大公司去买数据,在行业内其实是一件稀松平常的事情。

不仅是中国,全球用户都对数据的隐私性和保密度没有特别清晰的认识,在使用各种互联网产品时,都不得不在「用户使用协议」上选择那个「是」。

大佬们买来数据,然后呢?

大佬们花了重金买了数据,当然会让这些数据高效利用起来。

他们一边买进数据,一边用自家产品收集数据,还在研发更安全的加密方式,来保护自己的数据。

从大佬向数据堂买数据说起,聊聊 GAN 加密

真是弱者恒弱,强者恒强

作为工程师,我们还是聊一聊目前普遍应用的几种数据加密方式,以及如何去理解他们的性质原理。

先天不足的匿名化数据的保护机制

目前,比较常用的数据共享保密机制是通过匿名化数据集来实现,但在大多数情况下,这仍算不上一个很好的解决方案。

数据匿名化可以通过掩盖一些敏感数据,在一定程度上起到保密作用,但它却不能阻止数据专家的推理。在实际应用过程中,通过相关信息的逆向推导,完全可以推理出被掩盖的敏感数据。

此前有一位德国研究员在德国汉堡举行的第 33 届混沌通信大会(Chaos Communication Congress)上发表过一篇名叫 《Build your own NSA》的研究文,讲的就是关于如何逆数据匿名化找到原信息。

从大佬向数据堂买数据说起,聊聊 GAN 加密

该研究员通过一家虚拟公司,免费获得了一份约 300 万德国人一个月的 Web 点击流信息。这些信息是匿名化处理过的,比如用一串随机字符 「4vdp0qoi2kjaqgb」替代用户的真实名称。

而该研究员通过用户的历史浏览记录等相关信息,成功推导出用户在该网站上的真实名称。可见,数据匿名化并不能将保密做的严丝合缝。

混沌通信大会是由欧洲最大的黑客联盟组织——德国混沌电脑俱乐部(Chaos Computer Club)主办。主要研讨计算机和网络安全问题,旨在推进计算机和网络安全。

于是,同态加密法诞生

这是密码学领域的突破性成就之一,解密方只能获知最后的结果,而无法获得每一个密文的具体信息。

同态加密可以有效提高信息的安全性,未来可能会成为 AI 领域的一项关键技术,但现在来看,应用场景有限。

同态加密简单来讲,就是我的数据可以根据你的需要让你使用,但你无法看见这些数据具体是什么。

从大佬向数据堂买数据说起,聊聊 GAN 加密

这种加密方式虽然有效,但其计算成本太高

基本的同态加密技术可以将 1MB 的数据转换为 16GB,这在 AI 场景中成本很高。而且,同态加密技术 (就像大多数加密算法一样) 通常是不可微的,这对随机梯度下降 (SGD) 等主流 AI 算法来讲,有点不太适用。

目前来看,同态加密技术基本停留在概念层面,很难投入实际应用,不过未来可期。

GAN 加密技术了解一下

Google 在 2016 年发表过一篇论文,叫 《Learning to Protect Communications with Adversarial Neural Cryptography》,文中详细介绍了一种基于 GAN 的加密技术,能有效解决数据共享过程中的数据保护问题。

从大佬向数据堂买数据说起,聊聊 GAN 加密

这是一种基于神经网络的加密技术,通常情况下,神经网络被认为很难用于加密技术,因为它们难以执行 XOR 操作。

但事实证明,神经网络可以从其他的神经网络中学习如何对数据进行保密:他们能发现所有的加密和解密方法,却不会为加密或解密生成算法。

GAN 加密技术如何保护数据

GAN 的加密技术涉及三个方面,我们可以用 Alice、Bob 和 Eve 来展示。通常,Alice 和 Bob 是安全通信的两端,Eve 则监听他们的通信,试图逆向找到原数据信息。

从大佬向数据堂买数据说起,聊聊 GAN 加密

Alice 向 Bob 发送一条机密消息 P,由 Alice 输入。当 Alice 处理这个输入时,它会产生一个输出 C (「P」代表「明文」,「C」代表「密文」)。

Bob 和 Eve 都接收 C,并尝试通过 C 恢复 P(我们分别用 PBob 和 PEve 来表示这些计算)。

与 Eve 相比,Bob 拥有一个优势 : 他和 Alice 共享一个密钥 K。

Eve 的目标很简单 : 精确重构 P (换句话说,最小化 P 和 PEve 之间的误差)。

Alice 和 Bob 则希望清晰地进行通信 (以最小化 P 和 PBob 之间的误差),但同时也希望对 Eve 隐藏他们的通信。

通过 GAN 技术,Alice 和 Bob 被共同训练,在学习规避 Eve 监听的同时,成功实现信息的传递。整个过程没有使用任何预先设定好的算法,在 GAN 的原则下,Alice 和 Bob 被训练去打败最好的 Eve,而不是某个固定的 Eve。

如下图所示,在大约 8000 个训练步骤中,Bob 和 Eve 都可以开始重构原始消息。在大约 10000 个训练步骤中,Alice 和 Bob 网络似乎发现了 Eve,并开始干扰 Eve,导致 Eve 的错误率上升。也就是说,Bob 能够从 Eve 的行为中学习并保护通信,在避免被攻击的同时实现准确的消息重构。

从大佬向数据堂买数据说起,聊聊 GAN 加密

回到 AI 应用程序,GAN 加密技术可以用来在公司和神经网络之间交换信息,而不需要保持高度的隐私。对于 AI 应用来说,是一个切实可行的数据保护方案。

因为,该模型可以学会有选择地保护信息,使数据集中的一些元素不被加密,但是可以防止任何形式的推断找到这些敏感数据,从而有效规避了数据匿名化的缺陷。

Google 团队在一个模型中调整了 GAN 加密体系结构,在这个模型中 Alice 和 Bob 仍然共享一个密钥,但是 Alice 在这里接收 A、B、C,并在密文之外生成 D-public。

Bob 和 Eve 都可以访问 Alice 输出的 D-public。Bob 使用它们生成改进后的 D 估计值,让 Eve 通过该近似值逆向恢复 C。目的是证明逆向训练允许近似 D 而不暴露 C,并且该近似值可以与加密信息和密钥结合,以便更好的混淆 Eve 的视线。

为了验证该系统可以正确的隐藏信息,研究人员创造了一个评估器叫「Blind Eve」。它知道 C,但不知道 D-public 和密钥,而 Eve 知道这些信息。

如果 Eve 的重构误差等于 Blind Eve 的重构误差,这说明 Eve 没有成功提取到有效信息。经过几次训练,Eve 相对于 Blind Eve 不再具有优势。这表明 Eve 无法通过简单地了解到 C 值的分布,来重构任何关于 C 的信息。

从大佬向数据堂买数据说起,聊聊 GAN 加密

目前来看,在主流 AI 应用中,GAN 密码学算是一种相对新颖的技术。但从概念上讲,GAN 加密技术可以让公司与数据科学家共享数据集,而不必披露其中的敏感数据。

长远看来,想要获得用户信任和减少法务危机,加密技术还是其次,最重要的还是互联网厂商对于用户隐私的尊重和合理使用。

超神经小百科

单词

discriminator

[dɪ’skrɪməˌneɪtə] n. 鉴别器

sigmoid

[‘sɪgmɔɪd]n. sigmoid 函数

词组

Generative Adversarial Network对抗生成网络

从大佬向数据堂买数据说起,聊聊 GAN 加密

历史文章(点击图片阅读)

从大佬向数据堂买数据说起,聊聊 GAN 加密

《机器翻译都发展了 60 年了,好像还很水?》

从大佬向数据堂买数据说起,聊聊 GAN 加密

法国曾差一点点,成为世界头号科技强国

从大佬向数据堂买数据说起,聊聊 GAN 加密

嘿!图灵,生日快乐

从大佬向数据堂买数据说起,聊聊 GAN 加密

如果图灵是 AI 之父,

那么香农应该是 AI 舅老爷?

从大佬向数据堂买数据说起,聊聊 GAN 加密

超神经 HyperAI

换个姿势看科技

关注

从大佬向数据堂买数据说起,聊聊 GAN 加密