華珠飯店の宿泊予約情報漏洩から始まるGAN暗号化について話しましょう

8年前

超神経質で

現在、ハッカーが「華珠ホテルの客室開設データ」をダークウェブ上で公開しているという噂がある。販売者が公開した内容から判断すると、そのデータには華珠が所有するホテルだけでなく、アコーホテルズが所有するホテルのユーザーデータも含まれている。それに協力している。ハッカーはこれまでに8ビットコイン（約5万6000米ドル、約38万元）を公に販売しており、華珠飯店はこれまでに公的に対応し、警察に通報した。

華珠ホテルグループ (NASDAQ: HTHT) は、旧ハンティンホテルグループであり、中国初のフルブランドのホテルチェーン管理グループです。

2005 年に設立され、2010 年 3 月に米国のナスダックに上場しました。現在、市場のあらゆるレベルをカバーする 3,000 以上のホテルを運営しています。

その中で、ハイエンド市場向けのホテルブランドには、Grand Mercure、VUE、Xiyue があり、中級市場向けには、All Seasons、Orange Crystal、Orange Select、Ibis Styles などがあります。アイビス、漢庭プレミアム、漢庭、海遊などが含まれます。

ダークウェブで販売されるデータには、次の 3 つの部分が含まれます。

華珠ホテルの公式ウェブサイトの登録情報には次のものが含まれます。

氏名、携帯電話番号、メールアドレス、ID番号、ログインパスワード、合計53G、約1億2千万人の身元情報；

花珠ホテルにチェックインする際のゲストの身元登録情報には次のものが含まれます。

氏名、ID番号、自宅住所、誕生日、内部ID番号、合計22.3G、約1億3,000万人の身元情報;

華珠ホテルの客室記録情報には次のものが含まれます。

内部ID番号、同一部屋に関連付けられた番号、氏名、決済カード番号、携帯電話番号、チェックイン時刻、ホテルID番号、部屋番号、消費金額等、合計66.2G、約2億4千万件。

Huazhuさんは警察に通報したと主張しているが、ダークウェブでの取引を追跡して証拠を入手するのは非常に難しく、データは漏洩したはずであり、どのような是正ができるかは不明だ。

データの流用: グレーゾーン

実は、このような大規模な国民情報漏えい事件は今回が初めてではない。

すでに今年7月には、中国で11社もの企業が関与した大規模なデータ漏えい事件が摘発され、4,000GB、数百億件の国民情報データが押収された。

この事件に関係するデータには、携帯電話番号やインターネット基地局コードなど 40 を超える情報要素が含まれており、その一部はプライバシーが高くなります。データは、国民の個人アカウントのホームページに直接入力することもできます。

しかし、さらに予想外だったのは、このデータを購入するのは、私たちが考えているような詐欺組織や金融オンラインローンなどだけではないということです。グーグルやファーウェイを含む国内外の多くの大手インターネット企業は同社の重要な収益顧客であり、これら企業はいずれも国民のさまざまな個人データを保有していることになる。

世界中の AI 企業の研究開発エンジニアにとって、大量の実データを取得できることは、AI モデルの開発に非常に役立ちます。データの純度が十分に高ければ、さらに役立ちます。

データをより簡単に処理し、モデルをより効率的に比較および評価し、現実の問題に対する適切な解決策を見つけ出すことができます。

ただし、データの機密性の問題により、これらの大手企業が共有できるデータは非常に限られています。したがって、大企業がデータを購入することは業界では実際に一般的なことです。

中国に限らず、世界中のユーザーは、データのプライバシーと機密性について特に明確に理解していません。さまざまなインターネット製品を使用する際、「ユーザー同意書」で「はい」を選択する必要があります。

大手企業がデータを購入し、その後はどうなるでしょうか?

大手企業は多額の費用をかけてデータを購入しており、当然そのデータを効率的に活用します。

彼らはデータを購入する一方で、自社製品を使用してデータを収集しており、データを保護するためのより安全な暗号化方法も開発しています。

確かに、弱い者は常に弱いままであり、強い者は常に強いままです。

エンジニアとして、現在一般的に使用されているいくつかのデータ暗号化方法と、その特性と原則を理解する方法について話しましょう。

匿名化されたデータに対する不適切な保護メカニズム

現在、最も一般的に使用されているデータ共有の機密性メカニズムはデータセットを匿名化することですが、ほとんどの場合、これはまだ良い解決策ではありません。

データの匿名化では、一部の機密データをマスクすることで機密性をある程度維持できますが、データの専門家による推論を防ぐことはできません。実際の申請プロセスでは、関連情報を逆導出することで、マスクされた機密データを推定することが完全に可能です。

以前、ドイツの研究者がドイツのハンブルクで開催された第33回カオスコミュニケーション会議で「カオスコミュニケーション会議」という論文を発表しました。 「独自の NSA を構築する」研究記事では、データの匿名化を逆にして元の情報を見つける方法について説明しています。

研究者は、架空の会社を通じて、約 300 万人のドイツ人に関する 1 か月分の Web クリックストリーム情報を無料で入手しました。この情報はランダムな文字列を使用するなどして匿名化されます。 「4vdp0qoi2kjaqgb」ユーザーの実名を置き換えます。

研究者は、ユーザーの閲覧履歴やその他の関連情報から、Web サイト上のユーザーの本名を推定することに成功しました。データの匿名化では機密性を確保できないことがわかります。

Chaos Communication Conference は、ヨーロッパ最大のハッカー同盟である German Chaos Computer Club が主催しています。コンピュータとネットワークのセキュリティを促進することを目的として、主にコンピュータとネットワークのセキュリティ問題について議論します。

こうして準同型暗号が誕生した

これは、暗号化の分野における画期的な成果の 1 つです。復号者は最終結果を知ることしかできませんが、各暗号文の特定の情報を取得することはできません。

準同型暗号は情報のセキュリティを効果的に向上させることができ、将来的にはAI分野の主要技術となる可能性がありますが、現時点ではその適用シナリオは限られています。

簡単に言うと、準同型暗号化とは、私のデータを必要に応じて使用できるが、そのデータが何であるかを見ることはできないことを意味します。

この暗号化方法は効果的ですが、計算コストが高すぎます

基本的な準同型暗号化テクノロジは 1 MB のデータを 16 GB に変換できますが、これは AI シナリオでは非常にコストがかかります。さらに、準同型暗号化テクノロジ (ほとんどの暗号化アルゴリズムと同様) は通常、微分不可能であるため、確率的勾配降下法 (SGD) などの主流の AI アルゴリズムにはやや適していません。

現時点では準同型暗号技術は基本的に概念的レベルにとどまっており、実用化は困難ですが、将来性は期待できます。

GAN 暗号化テクノロジーについて学ぶ

Googleは2016年に次のような論文を発表した。 「敵対的なニューラル暗号を使用して通信を保護する方法を学ぶ」, この記事では、データ共有プロセスにおけるデータ保護の問題を効果的に解決できる GAN に基づく暗号化技術を詳しく紹介します。

これはニューラルネットワークに基づいた暗号化技術であり、通常、ニューラルネットワークは XOR 演算の実行が難しいため、暗号化技術で使用するのは難しいと考えられています。

しかし、ニューラルネットワークは、データを秘密に保つ方法を他のニューラルネットワークから学習できることが判明しました。つまり、暗号化または復号化のアルゴリズムを生成せずに、すべての暗号化および復号化方法を発見できるのです。

GAN 暗号化テクノロジーがデータを保護する仕組み

GAN の暗号化テクノロジには 3 つの側面が含まれており、アリス、ボブ、イブを使用して説明できます。通常、アリスとボブは安全な通信の両端であり、イブは彼らの通信を監視し、逆に元のデータ情報を見つけようとします。

アリスは機密メッセージ P をボブに送信し、これをアリスが入力します。アリスがこの入力を処理すると、出力 C が生成されます (「P」は「平文」を表し、「C」は「暗号文」を表します)。

Bob と Eve は両方とも C を受け取り、C から P を回復しようとします (これらの計算をそれぞれ PBob と PEve で表します)。

イブと比較して、ボブには 1 つの利点があります。 彼とアリスは鍵 K を共有します。

Eve の目標は単純です。P を正確に再構築する (つまり、P と PEve の間の誤差を最小限に抑える) ことです。

アリスとボブは、(P と PBob の間のエラーを最小限に抑えるために) 明確にコミュニケーションしたいと考えていますが、イブからコミュニケーションを隠したいとも考えています。

GAN テクノロジーを通じて、アリスとボブは、イブの監視を回避する方法を学びながら、情報をうまく転送できるよう一緒に訓練されました。プロセス全体では、事前に設定されたアルゴリズムは使用されません。GAN の原理に基づいて、アリスとボブは、固定されたイブではなく、最高のイブに勝つように訓練されます。

以下の図に示すように、約 8000 トレーニングステップ以内に、ボブとイブの両方が元のメッセージの再構築を開始できます。約 10,000 トレーニングステップで、アリスとボブのネットワークがイブを発見したように見え、イブに干渉し始め、イブのエラー率が増加しました。言い換えれば、ボブはイブの行動から学習して通信を保護し、攻撃を回避しながら正確なメッセージの再構築を実現できます。

AI アプリケーションの話に戻ると、GAN 暗号化テクノロジは、高度なプライバシーを維持することなく、企業とニューラルネットワークの間で情報を交換するために使用できます。これは、AI アプリケーション向けの実用的なデータ保護ソリューションです。

このモデルは、データセット内の一部の要素が暗号化されないように情報を選択的に保護する方法を学習できるため、あらゆる形式の推論でこの機密データが検出されるのを防ぎ、データ匿名化の落とし穴を効果的に回避できます。

Google チームは、アリスとボブが依然として鍵を共有するモデルで GAN 暗号化アーキテクチャを調整しましたが、ここではアリスが A、B、C を受け取り、暗号文から D-public を生成します。

ボブとイブは両方とも、アリスによる D-public 出力にアクセスできます。ボブはそれらを使用して D の改善された推定値を生成し、イブにこの近似を逆算して C を回復させます。目標は、逆トレーニングによって C を公開することなく D の近似が可能であること、およびこの近似を暗号化された情報およびキーと組み合わせて Eve をより難読化できることを実証することです。

システムが情報を正しく隠蔽できることを検証するために、研究者らは「Blind Eve」と呼ばれる評価ツールを作成しました。 C は知っていますが、Eve が知っている D-public とキーは知りません。

Eve の再構成誤差が Blind Eve の再構成誤差と等しい場合、これは Eve が有効な情報をうまく抽出できなかったことを意味します。数回のトレーニングセッションの後、イブはブラインドイブに対して優位性を失いました。これは、Eve が単に C 値の分布を知っているだけでは C に関する情報を再構成できないことを示しています。

現在、GAN 暗号化は、主流の AI アプリケーションでは比較的新しいテクノロジーです。しかし概念的には、GAN 暗号化テクノロジーを使用すると、企業は内部の機密データを開示することなく、データセットをデータサイエンティストと共有できるようになります。

長期的には、ユーザーの信頼を獲得し、法的危機を軽減したい場合、暗号化技術は二の次になります。最も重要なことは、インターネットメーカーがユーザーのプライバシーを尊重し、それを合理的に使用することです。

華珠飯店の宿泊予約情報漏洩から始まるGAN暗号化について話しましょう

8年前

情報

超神経質で

華珠ホテルグループ (NASDAQ: HTHT) は、旧ハンティンホテルグループであり、中国初のフルブランドのホテルチェーン管理グループです。

ダークウェブで販売されるデータには、次の 3 つの部分が含まれます。

華珠ホテルの公式ウェブサイトの登録情報には次のものが含まれます。

氏名、携帯電話番号、メールアドレス、ID番号、ログインパスワード、合計53G、約1億2千万人の身元情報；

花珠ホテルにチェックインする際のゲストの身元登録情報には次のものが含まれます。

氏名、ID番号、自宅住所、誕生日、内部ID番号、合計22.3G、約1億3,000万人の身元情報;

華珠ホテルの客室記録情報には次のものが含まれます。

データの流用: グレーゾーン

実は、このような大規模な国民情報漏えい事件は今回が初めてではない。

すでに今年7月には、中国で11社もの企業が関与した大規模なデータ漏えい事件が摘発され、4,000GB、数百億件の国民情報データが押収された。

データをより簡単に処理し、モデルをより効率的に比較および評価し、現実の問題に対する適切な解決策を見つけ出すことができます。

大手企業がデータを購入し、その後はどうなるでしょうか?

大手企業は多額の費用をかけてデータを購入しており、当然そのデータを効率的に活用します。

彼らはデータを購入する一方で、自社製品を使用してデータを収集しており、データを保護するためのより安全な暗号化方法も開発しています。

確かに、弱い者は常に弱いままであり、強い者は常に強いままです。

エンジニアとして、現在一般的に使用されているいくつかのデータ暗号化方法と、その特性と原則を理解する方法について話しましょう。

匿名化されたデータに対する不適切な保護メカニズム

こうして準同型暗号が誕生した

簡単に言うと、準同型暗号化とは、私のデータを必要に応じて使用できるが、そのデータが何であるかを見ることはできないことを意味します。

この暗号化方法は効果的ですが、計算コストが高すぎます

現時点では準同型暗号技術は基本的に概念的レベルにとどまっており、実用化は困難ですが、将来性は期待できます。

GAN 暗号化テクノロジーについて学ぶ

GAN 暗号化テクノロジーがデータを保護する仕組み

Bob と Eve は両方とも C を受け取り、C から P を回復しようとします (これらの計算をそれぞれ PBob と PEve で表します)。

イブと比較して、ボブには 1 つの利点があります。 彼とアリスは鍵 K を共有します。

Eve の目標は単純です。P を正確に再構築する (つまり、P と PEve の間の誤差を最小限に抑える) ことです。

Command Palette

華珠飯店の宿泊予約情報漏洩から始まるGAN暗号化について話しましょう

データの流用: グレーゾーン

匿名化されたデータに対する不適切な保護メカニズム

GAN 暗号化テクノロジーについて学ぶ

Command Palette

華珠飯店の宿泊予約情報漏洩から始まるGAN暗号化について話しましょう

データの流用: グレーゾーン

匿名化されたデータに対する不適切な保護メカニズム

GAN 暗号化テクノロジーについて学ぶ

関連 ニュース

論文週間レポート｜DeepMindのD4RT統合動的4D再構成、推論速度が300倍に急上昇。AGIの普遍性という幻想を打ち砕き、コロンビア大学などがAI進化の目標を再構築するSAI理論を提唱…今週の最先端AI論文をざっと見てみよう

科学者たちは、ベイズ最適化フレームワークを用いてガリウム含有材料をリバースエンジニアリングすることで、独自に新しい材料を生成した。最適化の結果は、独自性と新規性を示している。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

Googleのグローバル洪水予測システムがバージョン2にアップグレードされ、信頼できる予測期間が6日間延長され、精度が大幅に向上しました。

オンラインチュートリアル | 16GBノートパソコンで約26B MoEのパフォーマンスを実現：テキスト/画像/音声モダリティの統合処理のための革新的なアーキテクチャに基づくGemma 4 12B

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

Googleの対話型医療システムAMIEは、Gemini 1.5の長い文脈認識能力を活用することで、複数回の患者診察を含む100のシナリオにおいて、一般開業医と同等の推論レベルを達成した。

Command Palette

華珠飯店の宿泊予約情報漏洩から始まるGAN暗号化について話しましょう

データの流用: グレーゾーン

匿名化されたデータに対する不適切な保護メカニズム

GAN 暗号化テクノロジーについて学ぶ

関連 ニュース

論文週間レポート｜DeepMindのD4RT統合動的4D再構成、推論速度が300倍に急上昇。AGIの普遍性という幻想を打ち砕き、コロンビア大学などがAI進化の目標を再構築するSAI理論を提唱…今週の最先端AI論文をざっと見てみよう

科学者たちは、ベイズ最適化フレームワークを用いてガリウム含有材料をリバースエンジニアリングすることで、独自に新しい材料を生成した。最適化の結果は、独自性と新規性を示している。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

Googleのグローバル洪水予測システムがバージョン2にアップグレードされ、信頼できる予測期間が6日間延長され、精度が大幅に向上しました。

オンラインチュートリアル | 16GBノートパソコンで約26B MoEのパフォーマンスを実現：テキスト/画像/音声モダリティの統合処理のための革新的なアーキテクチャに基づくGemma 4 12B

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

Googleの対話型医療システムAMIEは、Gemini 1.5の長い文脈認識能力を活用することで、複数回の患者診察を含む100のシナリオにおいて、一般開業医と同等の推論レベルを達成した。

関連 ニュース

論文週間レポート｜DeepMindのD4RT統合動的4D再構成、推論速度が300倍に急上昇。AGIの普遍性という幻想を打ち砕き、コロンビア大学などがAI進化の目標を再構築するSAI理論を提唱…今週の最先端AI論文をざっと見てみよう

科学者たちは、ベイズ最適化フレームワークを用いてガリウム含有材料をリバースエンジニアリングすることで、独自に新しい材料を生成した。最適化の結果は、独自性と新規性を示している。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

Googleのグローバル洪水予測システムがバージョン2にアップグレードされ、信頼できる予測期間が6日間延長され、精度が大幅に向上しました。

オンラインチュートリアル | 16GBノートパソコンで約26B MoEのパフォーマンスを実現：テキスト/画像/音声モダリティの統合処理のための革新的なアーキテクチャに基づくGemma 4 12B

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

Googleの対話型医療システムAMIEは、Gemini 1.5の長い文脈認識能力を活用することで、複数回の患者診察を含む100のシナリオにおいて、一般開業医と同等の推論レベルを達成した。

関連 ニュース

論文週間レポート｜DeepMindのD4RT統合動的4D再構成、推論速度が300倍に急上昇。AGIの普遍性という幻想を打ち砕き、コロンビア大学などがAI進化の目標を再構築するSAI理論を提唱…今週の最先端AI論文をざっと見てみよう

科学者たちは、ベイズ最適化フレームワークを用いてガリウム含有材料をリバースエンジニアリングすることで、独自に新しい材料を生成した。最適化の結果は、独自性と新規性を示している。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

Googleのグローバル洪水予測システムがバージョン2にアップグレードされ、信頼できる予測期間が6日間延長され、精度が大幅に向上しました。

オンラインチュートリアル | 16GBノートパソコンで約26B MoEのパフォーマンスを実現：テキスト/画像/音声モダリティの統合処理のための革新的なアーキテクチャに基づくGemma 4 12B

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

Googleの対話型医療システムAMIEは、Gemini 1.5の長い文脈認識能力を活用することで、複数回の患者診察を含む100のシナリオにおいて、一般開業医と同等の推論レベルを達成した。

関連ニュース

関連ニュース

関連ニュース

関連ニュース