HyperAI超神经

By 超神经

今天坊间流传着有黑客在暗网上公开兜售「华住酒店开房数据」，从卖家发布内容看，数据包含华住旗下的酒店，还包括与其进行合作的雅高酒店旗下的酒店的用户数据。黑客公开叫卖 8 个比特币（约 5.6 万美金，近 38 万人民币），截至目前，华住酒店公开回应已经报警。

华住酒店集团（NASDAQ:HTHT) 即原汉庭酒店集团，是国内第一家全品牌的连锁酒店管理集团。

它创立于 2005 年，2010 年 3 月在美国纳斯达克上市，目前运营着 3000 多家酒店，覆盖高中低端各级市场。

其中，面向高端市场的酒店品牌有美爵、 VUE 、禧玥；面向中端市场有全季、桔子水晶、桔子精选、宜必思尚品等；大众市场则包括宜必思、汉庭优佳、汉庭、海友等。

本次在暗网上售卖的数据包括三个部分：

华住酒店官网的注册资料信息，包括：

姓名、手机、邮箱、身份证号、登录密码，共 53 G，约 1.2 亿人身份信息；

华住系酒店入住时，房客的身份登记信息，包括：

姓名、身份证号、家庭住址、生日、内部 ID 号，共 22.3 G，约 1.3 亿人身份信息；

华住系酒店开房记录信息，包括：

内部 ID 号、同房间关联号、姓名、付款卡号、手机号、入住时间、酒店 ID 号、房间号、消费金额等，共 66.2 G，约 2.4 亿条记录；

虽然华住已经宣称报警，但暗网交易追溯、取证的难度都很大，而且数据应该已经流出，也不知道能够进行哪些补救。

侵占数据：阳光下的灰色地带

其实这也不是第一次爆出如此大规模的公民信息泄露了。

早在今年七月，国内曝出一件涉嫌数据泄露的要案，涉案公司多达 11 家，查获公民信息数据 4000 GB 、数百亿条。

此案涉及的数据隐私性高，案件涉及的上网 URL 数据，包含了手机号、上网基站代码等 40 余项信息要素，记录手机用户具体的上网行为，甚至部分数据能够直接进入公民个人账号主页。

然而更令人想不到的是，购买这些数据的，不单单是我们认为的诈骗组织、金融网贷等等。国内外多家互联网大企业包括 Google 、华为在内，都是该公司的重要收入客户，也就是说他们都掌握着公民们的各种私密数据。

对全球任何一家 AI 公司的研发工程师来说，能够获得大量真实数据，对于研发 AI 模型是非常有帮助的，如果数据的纯度够高的话，就更好了。

他们可以更方便的处理数据，更高效地比较和评估模型，从而得出正确的解决方案，应对现实生活中的问题。

然而，受制于数据保密问题，这些巨头们能共享的数据相当有限。所以大公司去买数据，在行业内其实是一件稀松平常的事情。

不仅是中国，全球用户都对数据的隐私性和保密度没有特别清晰的认识，在使用各种互联网产品时，都不得不在「用户使用协议」上选择那个「是」。

大佬们买来数据，然后呢？

大佬们花了重金买了数据，当然会让这些数据高效利用起来。

他们一边买进数据，一边用自家产品收集数据，还在研发更安全的加密方式，来保护自己的数据。

真是弱者恒弱，强者恒强

作为工程师，我们还是聊一聊目前普遍应用的几种数据加密方式，以及如何去理解他们的性质原理。

先天不足的匿名化数据的保护机制

目前，比较常用的数据共享保密机制是通过匿名化数据集来实现，但在大多数情况下，这仍算不上一个很好的解决方案。

数据匿名化可以通过掩盖一些敏感数据，在一定程度上起到保密作用，但它却不能阻止数据专家的推理。在实际应用过程中，通过相关信息的逆向推导，完全可以推理出被掩盖的敏感数据。

此前有一位德国研究员在德国汉堡举行的第 33 届混沌通信大会（Chaos Communication Congress）上发表过一篇名叫 《Build your own NSA》的研究文，讲的就是关于如何逆数据匿名化找到原信息。

该研究员通过一家虚拟公司，免费获得了一份约 300 万德国人一个月的 Web 点击流信息。这些信息是匿名化处理过的，比如用一串随机字符 「4vdp0qoi2kjaqgb」来替代用户的真实名称。

而该研究员通过用户的历史浏览记录等相关信息，成功推导出用户在该网站上的真实名称。可见，数据匿名化并不能将保密做的严丝合缝。

混沌通信大会是由欧洲最大的黑客联盟组织——德国混沌电脑俱乐部（Chaos Computer Club）主办。主要研讨计算机和网络安全问题，旨在推进计算机和网络安全。

于是，同态加密法诞生

这是密码学领域的突破性成就之一，解密方只能获知最后的结果，而无法获得每一个密文的具体信息。

同态加密可以有效提高信息的安全性，未来可能会成为 AI 领域的一项关键技术，但现在来看，应用场景有限。

同态加密简单来讲，就是我的数据可以根据你的需要让你使用，但你无法看见这些数据具体是什么。

这种加密方式虽然有效，但其计算成本太高

基本的同态加密技术可以将 1MB 的数据转换为 16GB，这在 AI 场景中成本很高。而且，同态加密技术 (就像大多数加密算法一样) 通常是不可微的，这对随机梯度下降 (SGD) 等主流 AI 算法来讲，有点不太适用。

目前来看，同态加密技术基本停留在概念层面，很难投入实际应用，不过未来可期。

GAN 加密技术了解一下

Google 在 2016 年发表过一篇论文，叫 《Learning to Protect Communications with Adversarial Neural Cryptography》，文中详细介绍了一种基于 GAN 的加密技术，能有效解决数据共享过程中的数据保护问题。

这是一种基于神经网络的加密技术，通常情况下，神经网络被认为很难用于加密技术，因为它们难以执行 XOR 操作。

但事实证明，神经网络可以从其他的神经网络中学习如何对数据进行保密：他们能发现所有的加密和解密方法，却不会为加密或解密生成算法。

GAN 加密技术如何保护数据

GAN 的加密技术涉及三个方面，我们可以用 Alice 、 Bob 和 Eve 来展示。通常，Alice 和 Bob 是安全通信的两端，Eve 则监听他们的通信，试图逆向找到原数据信息。

Alice 向 Bob 发送一条机密消息 P，由 Alice 输入。当 Alice 处理这个输入时，它会产生一个输出 C (「P」代表「明文」，「C」代表「密文」) 。

Bob 和 Eve 都接收 C，并尝试通过 C 恢复 P（我们分别用 PBob 和 PEve 来表示这些计算）。

与 Eve 相比，Bob 拥有一个优势 : 他和 Alice 共享一个密钥 K 。

Eve 的目标很简单 : 精确重构 P (换句话说，最小化 P 和 PEve 之间的误差) 。

Alice 和 Bob 则希望清晰地进行通信 (以最小化 P 和 PBob 之间的误差)，但同时也希望对 Eve 隐藏他们的通信。

通过 GAN 技术，Alice 和 Bob 被共同训练，在学习规避 Eve 监听的同时，成功实现信息的传递。整个过程没有使用任何预先设定好的算法，在 GAN 的原则下，Alice 和 Bob 被训练去打败最好的 Eve，而不是某个固定的 Eve 。

如下图所示，在大约 8000 个训练步骤中，Bob 和 Eve 都可以开始重构原始消息。在大约 10000 个训练步骤中，Alice 和 Bob 网络似乎发现了 Eve，并开始干扰 Eve，导致 Eve 的错误率上升。也就是说，Bob 能够从 Eve 的行为中学习并保护通信，在避免被攻击的同时实现准确的消息重构。

回到 AI 应用程序，GAN 加密技术可以用来在公司和神经网络之间交换信息，而不需要保持高度的隐私。对于 AI 应用来说，是一个切实可行的数据保护方案。

因为，该模型可以学会有选择地保护信息，使数据集中的一些元素不被加密，但是可以防止任何形式的推断找到这些敏感数据，从而有效规避了数据匿名化的缺陷。

Google 团队在一个模型中调整了 GAN 加密体系结构，在这个模型中 Alice 和 Bob 仍然共享一个密钥，但是 Alice 在这里接收 A 、 B 、 C，并在密文之外生成 D-public 。

Bob 和 Eve 都可以访问 Alice 输出的 D-public 。 Bob 使用它们生成改进后的 D 估计值，让 Eve 通过该近似值逆向恢复 C 。目的是证明逆向训练允许近似 D 而不暴露 C，并且该近似值可以与加密信息和密钥结合，以便更好的混淆 Eve 的视线。

为了验证该系统可以正确的隐藏信息，研究人员创造了一个评估器叫「Blind Eve」。它知道 C，但不知道 D-public 和密钥，而 Eve 知道这些信息。

如果 Eve 的重构误差等于 Blind Eve 的重构误差，这说明 Eve 没有成功提取到有效信息。经过几次训练，Eve 相对于 Blind Eve 不再具有优势。这表明 Eve 无法通过简单地了解到 C 值的分布，来重构任何关于 C 的信息。

目前来看，在主流 AI 应用中，GAN 密码学算是一种相对新颖的技术。但从概念上讲，GAN 加密技术可以让公司与数据科学家共享数据集，而不必披露其中的敏感数据。

长远看来，想要获得用户信任和减少法务危机，加密技术还是其次，最重要的还是互联网厂商对于用户隐私的尊重和合理使用。

从华住系酒店开房信息泄露说起，聊聊 GAN 加密

侵占数据：阳光下的灰色地带

先天不足的匿名化数据的保护机制

GAN 加密技术了解一下