By 超神经
这几日国内曝出一件涉嫌数据泄露的要案,涉案公司多达 11 家,查获公民信息数据 4000 GB 、数百亿条。其中,国内知名大数据公司也被波及。
此案涉及的数据隐私性高,案件涉及的上网 URL 数据,包含了手机号、上网基站代码等 40 余项信息要素,记录手机用户具体的上网行为,甚至部分数据能够直接进入公民个人账号主页。
想发展 AI 不可避免侵占数据?
对全球任何一家 AI 公司的研发工程师来说,能够获得大量真实数据,对于研发 AI 模型是非常有帮助的,如果数据的纯度够高的话,就更好了。他们可以更方便的处理数据,更高效地比较和评估模型,从而得出正确的解决方案,应对现实生活中的问题。
然而,受制于数据保密问题,这些巨头们能共享的数据相当有限。所以向大公司去买数据,在行业内其实是一件稀松平常的事情。
不仅是中国,全球用户都对数据的隐私性和保密度没有特别清晰的认识,在使用各种互联网产品时,都不得不在「用户使用协议」上选择那个「是」。
大佬们买来数据,然后呢?
大佬们花了重金买了数据,当然会让这些数据高效利用起来。
他们一边买进数据,一边用自家产品收集数据,还在研发更安全的加密方式,来保护自己的数据。
真是弱者恒弱,强者恒强
作为工程师,我们还是聊一聊目前普遍应用的几种数据加密方式,以及如何去理解他们的性质原理。
先天不足的匿名化数据的保护机制
目前,比较常用的数据共享保密机制是通过匿名化数据集来实现,但在大多数情况下,这仍算不上一个很好的解决方案。
数据匿名化可以通过掩盖一些敏感数据,在一定程度上起到保密作用,但它却不能阻止数据专家的推理。在实际应用过程中,通过相关信息的逆向推导,完全可以推理出被掩盖的敏感数据。
此前有一位德国研究员在德国汉堡举行的第 33 届混沌通信大会(Chaos Communication Congress)上发表过一篇名叫 《Build your own NSA》的研究文,讲的就是关于如何逆数据匿名化找到原信息。
该研究员通过一家虚拟公司,免费获得了一份约 300 万德国人一个月的 Web 点击流信息。这些信息是匿名化处理过的,比如用一串随机字符 「4vdp0qoi2kjaqgb」来替代用户的真实名称。
而该研究员通过用户的历史浏览记录等相关信息,成功推导出用户在该网站上的真实名称。可见,数据匿名化并不能将保密做的严丝合缝。
混沌通信大会是由欧洲最大的黑客联盟组织——德国混沌电脑俱乐部(Chaos Computer Club)主办。主要研讨计算机和网络安全问题,旨在推进计算机和网络安全。
于是,同态加密法诞生
这是密码学领域的突破性成就之一,解密方只能获知最后的结果,而无法获得每一个密文的具体信息。
同态加密可以有效提高信息的安全性,未来可能会成为 AI 领域的一项关键技术,但现在来看,应用场景有限。
同态加密简单来讲,就是我的数据可以根据你的需要让你使用,但你无法看见这些数据具体是什么。
这种加密方式虽然有效,但其计算成本太高
基本的同态加密技术可以将 1MB 的数据转换为 16GB,这在 AI 场景中成本很高。而且,同态加密技术 (就像大多数加密算法一样) 通常是不可微的,这对随机梯度下降 (SGD) 等主流 AI 算法来讲,有点不太适用。
目前来看,同态加密技术基本停留在概念层面,很难投入实际应用,不过未来可期。
GAN 加密技术了解一下
Google 在 2016 年发表过一篇论文,叫 《Learning to Protect Communications with Adversarial Neural Cryptography》,文中详细介绍了一种基于 GAN 的加密技术,能有效解决数据共享过程中的数据保护问题。
这是一种基于神经网络的加密技术,通常情况下,神经网络被认为很难用于加密技术,因为它们难以执行 XOR 操作。
但事实证明,神经网络可以从其他的神经网络中学习如何对数据进行保密:他们能发现所有的加密和解密方法,却不会为加密或解密生成算法。
GAN 加密技术如何保护数据
GAN 的加密技术涉及三个方面,我们可以用 Alice 、 Bob 和 Eve 来展示。通常,Alice 和 Bob 是安全通信的两端,Eve 则监听他们的通信,试图逆向找到原数据信息。
Alice 向 Bob 发送一条机密消息 P,由 Alice 输入。当 Alice 处理这个输入时,它会产生一个输出 C (「P」代表「明文」,「C」代表「密文」) 。
Bob 和 Eve 都接收 C,并尝试通过 C 恢复 P(我们分别用 PBob 和 PEve 来表示这些计算)。
与 Eve 相比,Bob 拥有一个优势 : 他和 Alice 共享一个密钥 K 。
Eve 的目标很简单 : 精确重构 P (换句话说,最小化 P 和 PEve 之间的误差) 。
Alice 和 Bob 则希望清晰地进行通信 (以最小化 P 和 PBob 之间的误差),但同时也希望对 Eve 隐藏他们的通信。
通过 GAN 技术,Alice 和 Bob 被共同训练,在学习规避 Eve 监听的同时,成功实现信息的传递。整个过程没有使用任何预先设定好的算法,在 GAN 的原则下,Alice 和 Bob 被训练去打败最好的 Eve,而不是某个固定的 Eve 。
如下图所示,在大约 8000 个训练步骤中,Bob 和 Eve 都可以开始重构原始消息。在大约 10000 个训练步骤中,Alice 和 Bob 网络似乎发现了 Eve,并开始干扰 Eve,导致 Eve 的错误率上升。也就是说,Bob 能够从 Eve 的行为中学习并保护通信,在避免被攻击的同时实现准确的消息重构。
回到 AI 应用程序,GAN 加密技术可以用来在公司和神经网络之间交换信息,而不需要保持高度的隐私。对于 AI 应用来说,是一个切实可行的数据保护方案。
因为,该模型可以学会有选择地保护信息,使数据集中的一些元素不被加密,但是可以防止任何形式的推断找到这些敏感数据,从而有效规避了数据匿名化的缺陷。
Google 团队在一个模型中调整了 GAN 加密体系结构,在这个模型中 Alice 和 Bob 仍然共享一个密钥,但是 Alice 在这里接收 A 、 B 、 C,并在密文之外生成 D-public 。
Bob 和 Eve 都可以访问 Alice 输出的 D-public 。 Bob 使用它们生成改进后的 D 估计值,让 Eve 通过该近似值逆向恢复 C 。目的是证明逆向训练允许近似 D 而不暴露 C,并且该近似值可以与加密信息和密钥结合,以便更好的混淆 Eve 的视线。
为了验证该系统可以正确的隐藏信息,研究人员创造了一个评估器叫「Blind Eve」。它知道 C,但不知道 D-public 和密钥,而 Eve 知道这些信息。
如果 Eve 的重构误差等于 Blind Eve 的重构误差,这说明 Eve 没有成功提取到有效信息。经过几次训练,Eve 相对于 Blind Eve 不再具有优势。这表明 Eve 无法通过简单地了解到 C 值的分布,来重构任何关于 C 的信息。
目前来看,在主流 AI 应用中,GAN 密码学算是一种相对新颖的技术。但从概念上讲,GAN 加密技术可以让公司与数据科学家共享数据集,而不必披露其中的敏感数据。
长远看来,想要获得用户信任和减少法务危机,加密技术还是其次,最重要的还是互联网厂商对于用户隐私的尊重和合理使用。
超神经小百科
单词
discriminator
[dɪ’skrɪməˌneɪtə] n. 鉴别器
sigmoid
[‘sɪgmɔɪd]n. sigmoid 函数
词组
Generative Adversarial Network对抗生成网络
历史文章(点击图片阅读)
《机器翻译都发展了 60 年了,好像还很水?》
《法国曾差一点点,成为世界头号科技强国》
《嘿!图灵,生日快乐》
《如果图灵是 AI 之父,
那么香农应该是 AI 舅老爷?》