
要約
機械学習は、ますます増加する大規模なデータセットを活用する上で、多くのコミュニティを支援する可能性を秘めている。しかし、その潜在能力の多くは、プライバシーを損なう形でデータを共有する必要があるため、実現されていない。本論文では、生成対抗ネットワーク(GAN)フレームワークにおける生成器の(微分プライバシーを含む)プライバシーを保証する手法を検討する。この手法により得られるモデルは、オリジナルデータセットのプライバシーを損なうことなく、アルゴリズムの訓練・検証やコンペティションに利用可能な合成データを生成することが可能となる。本手法は、プライベート・アグリゲーション・オブ・ティーチャー・エンサブル(PATE)フレームワークを改変し、GANに適用したものである。改変されたフレームワーク(本研究ではPATE-GANと呼ぶ)により、個々のサンプルがモデルに与える影響を厳密に制限でき、微分プライバシーの保証をより強固に実現することができる。その結果、同等のプライバシー保証を持つ他のモデルと比較して、性能が向上する。また、合成データの品質評価について新たな視点を提示する。すなわち、合成データが機械学習研究者にとって有用であるためには、二つのアルゴリズムが合成データセット上で訓練・評価された際の相対的な性能は、オリジナルデータセット上で訓練・評価された際の相対的性能と一致している必要があると主張する。さまざまなデータセットを用いた実験により、PATE-GANがこの基準およびその他の合成データ品質に関する指標において、従来の最先端手法を一貫して上回ることが示された。