ImageNetスケールでの学習における差分プライバシーの活用

差分プライバシー(Differential Privacy: DP)は、機械学習(Machine Learning: ML)モデルの訓練、特にニューラルネットワークの訓練において、訓練データセット内の個々のサンプルのプライバシーを確保するための事実上の標準となっています。しかし、合理的な精度とプライバシーを両立させながら、現実的な大規模なニューラルネットワークを訓練することは依然として非常に困難です。本研究では、ImageNet画像分類という現在DPを使用して正確に解決することが非常に難しいMLタスクを例に挙げ、その方法を探ることを目的としています。本論文では、当該努力から得られた初期の教訓を共有し、他の研究者が大規模なDP訓練に取り組む際の参考とインスピレーションとなることを期待しています。私たちはDP訓練を高速化する手法や、DP環境でより効果的に機能するモデルタイプと訓練プロセスの設定について示しています。これらの方法を組み合わせることで、Resnet-18モデルを$\epsilon = 10, \delta = 10^{-6}$というプライバシーパラメータで$47.9\%$の精度まで訓練することが可能となりました。これは「単純な」ImageNetモデルのDP訓練における大幅な改善ですが、プライバシーなしで同じネットワークが達成できる$75\%$の精度とは大きく乖離しています。使用したモデルは、Places365データセット上で事前学習されたものを起点としています。私たちのコードは https://github.com/google-research/dp-imagenet で公開しており、この新しい基準に基づいてさらなる大規模DP訓練の改善を目指す他の研究者からの参加を求めています。