Zur Ausbildung im ImageNet-Maßstab mit differentialer Privatsphäre

Die Differential Privacy (DP) ist der de facto Standard für das Training von maschinellen Lernmodellen (ML), einschließlich neuronaler Netze, während gleichzeitig die Privatsphäre einzelner Beispiele im Trainingsdatensatz gewährleistet wird. Trotz einer umfangreichen Literatur über das Training von ML-Modellen unter Berücksichtigung der Differential Privacy bleibt es äußerst schwierig, realistische, große neuronale Netze sowohl mit akzeptabler Genauigkeit als auch mit Privatsphäre zu trainieren.In diesem Beitrag untersuchen wir, wie dies erreicht werden kann, wobei wir das ImageNet-Bildklassifizierungsproblem als repräsentatives Beispiel für eine ML-Aufgabe verwenden, die aktuell sehr herausfordernd ist und mit DP genau gelöst werden muss. Dieses Papier teilt erste Erkenntnisse aus unseren Bemühungen, in der Hoffnung, andere Forscher zu inspirieren und zu informieren, um DP-Training in großem Maßstab weiter zu erforschen. Wir zeigen Ansätze, die dazu beitragen, dass das DP-Training schneller erfolgt, sowie Modelltypen und Einstellungen des Trainingsprozesses, die sich in einem DP-Umfeld besser erweisen. Kombiniert ermöglichen die hier besprochenen Methoden das Training eines ResNet-18 mit DP auf eine Genauigkeit von $47{,}9\,\%$ und den Privatsphäreparametern $\epsilon = 10$, $\delta = 10^{-6}$. Dies stellt einen erheblichen Fortschritt gegenüber dem "naiven" DP-Training von ImageNet-Modellen dar, liegt jedoch weit hinter der Genauigkeit von $75\,\%$, die dasselbe Netzwerk ohne Berücksichtigung der Privatsphäre erreichen kann. Das verwendete Modell wurde als Ausgangspunkt auf dem Places365-Datensatz vorgeprägt. Unser Code ist unter https://github.com/google-research/dp-imagenet verfügbar; wir laden andere ein, diesen neuen Baseline weiterzuentwickeln und so das DP-Training in großem Umfang weiter zu verbessern.