TAN ohne Brand: Skalierungsgesetze von DP-SGD

Differenzialprivatsmethoden zur Schulung von Tiefen Neuronalen Netzen (DNNs) haben sich kürzlich weiterentwickelt, insbesondere durch die Verwendung von massiven Batches und aggregierten Datenverstärkungen für eine große Anzahl von Trainingsstufen. Diese Techniken erfordern deutlich mehr Rechenressourcen als ihre nicht-privaten Gegenstücke, was den traditionellen Datenschutz-Akkuratesse-Kompromiss in einen Datenschutz-Akkuratesse-Rechenaufwand-Kompromiss verlagert und die Hyperparameter-Suche für realistische Szenarien praktisch unmöglich macht. In dieser Arbeit entkoppeln wir die Datenschutzanalyse vom experimentellen Verhalten des verrauschten Trainings, um den Kompromiss mit minimalen Rechenaufwandsanforderungen zu untersuchen. Zunächst nutzen wir die Werkzeuge der Rényi-Differential-Privatschaft (RDP), um hervorzuheben, dass das Datenschutzbudget, wenn es nicht überlastet wird, nur von der gesamten Menge an Rauschen (Total Amount of Noise, TAN) abhängt, die während des Trainings eingeführt wird. Anschließend leiten wir Skalierungsgesetze für das Training von Modellen mit DP-SGD her, um Hyperparameter mit einem mehr als 100-fachen Reduzierung des Rechenaufwands zu optimieren. Wir wenden die vorgeschlagene Methode auf CIFAR-10 und ImageNet an und verbessern insbesondere den Stand der Technik bei ImageNet um 9 Punkte in der Top-1-Akkuratesse bei einem Datenschutzbudget von ε=8.