超神経質で
ここ数日、中国で最大11社の企業が関与した大規模なデータ漏洩事件が発覚し、4000GB、数百億件の国民情報データが押収された。その中には、国内の著名なビッグデータ企業も影響を受けている。
この事件に関係するデータには、携帯電話番号やインターネット基地局コードなど 40 を超える情報要素が含まれており、その一部はプライバシーが高くなります。データは、国民の個人アカウントのホームページに直接入力することもできます。
AIを開発しようとすると、データの侵入は避けられませんか?
世界中の AI 企業の研究開発エンジニアにとって、大量の実データを取得できることは、AI モデルの開発に非常に役立ちます。データの純度が十分に高ければ、さらに役立ちます。データをより簡単に処理し、モデルをより効率的に比較および評価し、現実の問題に対する適切な解決策を見つけ出すことができます。
ただし、データの機密性の問題により、これらの大手企業が共有できるデータは非常に限られています。したがって、大企業からデータを購入することは、業界では実際に一般的なことです。
中国に限らず、世界中のユーザーは、データのプライバシーと機密性について特に明確に理解していません。さまざまなインターネット製品を使用する際、「ユーザー同意書」で「はい」を選択する必要があります。
大手企業がデータを購入し、その後はどうなるでしょうか?
大手企業は多額の費用をかけてデータを購入しており、当然そのデータを効率的に活用します。
彼らはデータを購入する一方で、自社製品を使用してデータを収集しており、データを保護するためのより安全な暗号化方法も開発しています。
確かに、弱い者は常に弱いままであり、強い者は常に強いままです。
エンジニアとして、現在一般的に使用されているいくつかのデータ暗号化方法と、その特性と原則を理解する方法について話しましょう。
匿名化されたデータに対する不適切な保護メカニズム
現在、最も一般的に使用されているデータ共有の機密性メカニズムはデータセットを匿名化することですが、ほとんどの場合、これはまだ良い解決策ではありません。
データの匿名化では、一部の機密データをマスクすることで機密性をある程度維持できますが、データの専門家による推論を防ぐことはできません。実際の申請プロセスでは、関連情報を逆導出することで、マスクされた機密データを推定することが完全に可能です。
以前、ドイツの研究者がドイツのハンブルクで開催された第33回カオスコミュニケーション会議で「カオスコミュニケーション会議」という論文を発表しました。 「独自の NSA を構築する」研究記事では、データの匿名化を逆にして元の情報を見つける方法について説明しています。
研究者は、架空の会社を通じて、約 300 万人のドイツ人に関する 1 か月分の Web クリックストリーム情報を無料で入手しました。この情報はランダムな文字列を使用するなどして匿名化されます。 「4vdp0qoi2kjaqgb」来るユーザーの実名を置き換えます。
研究者は、ユーザーの閲覧履歴やその他の関連情報から、Web サイト上のユーザーの本名を推定することに成功しました。データの匿名化では機密性を確保できないことがわかります。
Chaos Communication Conference は、ヨーロッパ最大のハッカー同盟である German Chaos Computer Club が主催しています。コンピュータとネットワークのセキュリティを促進することを目的として、主にコンピュータとネットワークのセキュリティ問題について議論します。
こうして準同型暗号が誕生した
これは、暗号化の分野における画期的な成果の 1 つです。復号者は最終結果を知ることしかできませんが、各暗号文の特定の情報を取得することはできません。
準同型暗号は情報のセキュリティを効果的に向上させることができ、将来的にはAI分野の主要技術となる可能性がありますが、現時点ではその適用シナリオは限られています。
簡単に言うと、準同型暗号化とは、私のデータを必要に応じて使用できるが、そのデータが何であるかを見ることはできないことを意味します。
この暗号化方法は効果的ですが、計算コストが高すぎます
基本的な準同型暗号化テクノロジは 1 MB のデータを 16 GB に変換できますが、これは AI シナリオでは非常にコストがかかります。さらに、準同型暗号化テクノロジ (ほとんどの暗号化アルゴリズムと同様) は通常、微分不可能であるため、確率的勾配降下法 (SGD) などの主流の AI アルゴリズムにはやや適していません。
現時点では準同型暗号技術は基本的に概念的レベルにとどまっており、実用化は困難ですが、将来性は期待できます。
GAN 暗号化テクノロジーについて学ぶ
Googleは2016年に次のような論文を発表した。 「敵対的なニューラル暗号を使用して通信を保護する方法を学ぶ」, この記事では、データ共有プロセスにおけるデータ保護の問題を効果的に解決できる GAN に基づく暗号化技術を詳しく紹介します。
これはニューラル ネットワークに基づいた暗号化技術であり、通常、ニューラル ネットワークは XOR 演算の実行が難しいため、暗号化技術で使用するのは難しいと考えられています。
しかし、ニューラル ネットワークは、データを秘密に保つ方法を他のニューラル ネットワークから学習できることが判明しました。つまり、暗号化または復号化のアルゴリズムを生成せずに、すべての暗号化および復号化方法を発見できるのです。
GAN 暗号化テクノロジーがデータを保護する仕組み
GAN の暗号化テクノロジには 3 つの側面が含まれており、アリス、ボブ、イブを使用して説明できます。通常、アリスとボブは安全な通信の両端であり、イブは彼らの通信を監視し、逆に元のデータ情報を見つけようとします。
アリスは機密メッセージ P をボブに送信し、これをアリスが入力します。アリスがこの入力を処理すると、出力 C が生成されます (「P」は「平文」を表し、「C」は「暗号文」を表します)。
Bob と Eve は両方とも C を受け取り、C から P を回復しようとします (これらの計算をそれぞれ PBob と PEve で表します)。
イブと比較して、ボブには 1 つの利点があります。 彼とアリスは鍵 K を共有します。
Eve の目標は単純です。P を正確に再構築する (つまり、P と PEve の間の誤差を最小限に抑える) ことです。
アリスとボブは、(P と PBob の間のエラーを最小限に抑えるために) 明確にコミュニケーションしたいと考えていますが、イブからコミュニケーションを隠したいとも考えています。
GAN テクノロジーを通じて、アリスとボブは、イブの監視を回避する方法を学びながら、情報をうまく転送できるよう一緒に訓練されました。プロセス全体では、事前に設定されたアルゴリズムは使用されません。GAN の原理に基づいて、アリスとボブは、固定されたイブではなく、最高のイブに勝つように訓練されます。
以下の図に示すように、約 8000 トレーニング ステップ以内に、ボブとイブの両方が元のメッセージの再構築を開始できます。約 10,000 トレーニング ステップで、アリスとボブのネットワークがイブを発見したように見え、イブに干渉し始め、イブのエラー率が増加しました。言い換えれば、ボブはイブの行動から学習して通信を保護し、攻撃を回避しながら正確なメッセージの再構築を実現できます。
AI アプリケーションの話に戻ると、GAN 暗号化テクノロジは、高度なプライバシーを維持することなく、企業とニューラル ネットワークの間で情報を交換するために使用できます。これは、AI アプリケーション向けの実用的なデータ保護ソリューションです。
このモデルは、データ セット内の一部の要素が暗号化されないように情報を選択的に保護する方法を学習できるため、あらゆる形式の推論でこの機密データが検出されるのを防ぎ、データ匿名化の落とし穴を効果的に回避できます。
Google チームは、アリスとボブが依然として鍵を共有するモデルで GAN 暗号化アーキテクチャを調整しましたが、ここではアリスが A、B、C を受け取り、暗号文から D-public を生成します。
ボブとイブは両方とも、アリスによる D-public 出力にアクセスできます。ボブはそれらを使用して D の改善された推定値を生成し、イブにこの近似を逆算して C を回復させます。目標は、逆トレーニングによって C を公開することなく D の近似が可能であること、およびこの近似を暗号化された情報およびキーと組み合わせて Eve をより難読化できることを実証することです。
システムが情報を正しく隠蔽できることを検証するために、研究者らは「Blind Eve」と呼ばれる評価ツールを作成しました。 C は知っていますが、Eve が知っている D-public とキーは知りません。
Eve の再構成誤差が Blind Eve の再構成誤差と等しい場合、これは Eve が有効な情報をうまく抽出できなかったことを意味します。数回のトレーニングセッションの後、イブはブラインドイブに対して優位性を失いました。これは、Eve が単に C 値の分布を知っているだけでは C に関する情報を再構成できないことを示しています。
現在、GAN 暗号化は、主流の AI アプリケーションでは比較的新しいテクノロジーです。しかし概念的には、GAN 暗号化テクノロジーを使用すると、企業は内部の機密データを開示することなく、データ セットをデータ サイエンティストと共有できるようになります。
長期的には、ユーザーの信頼を獲得し、法的危機を軽減したい場合、暗号化技術は二の次になります。最も重要なことは、インターネット メーカーがユーザーのプライバシーを尊重し、それを合理的に使用することです。
スーパーニューラル事典
言葉
識別子
[dɪ'skrɪməˌneɪtə] 識別子。
シグモイド
['sɪgmɔɪd]n. シグモイド関数
フレーズ
敵対的生成ネットワーク敵対的生成ネットワーク
歴史記事(画像をクリックするとご覧いただけます)
「機械翻訳は60年も開発されてきたのに、まだまだ弱いのでは?」 》
《フランスはかつて、ほぼ世界一の技術大国になりかけました。》
《おい!チューリングお誕生日おめでとう》
《チューリングがAIの父なら、
では、シャノンはAIおじさんになるべきなのでしょうか?》