HyperAIHyperAI
vor 17 Tagen

Nicht-konvexes Lernen mittels Replica-Exchange-Stochastic-Gradient-MCMC

Wei Deng, Qi Feng, Liyao Gao, Faming Liang, Guang Lin
Nicht-konvexes Lernen mittels Replica-Exchange-Stochastic-Gradient-MCMC
Abstract

Der Replica-Exchange-Monte-Carlo-Algorithmus (reMC), auch bekannt als Parallel Tempering, ist eine wichtige Technik zur Beschleunigung der Konvergenz herkömmlicher Markov-Chain-Monte-Carlo-(MCMC-)Algorithmen. Allerdings erfordert diese Methode die Auswertung der Energiefunktion basierend auf dem gesamten Datensatz und ist somit nicht skalierbar für Big Data. Die naive Implementierung von reMC in Mini-Batch-Umgebungen führt zu erheblichen Verzerrungen, die eine direkte Erweiterung auf stochastische Gradienten-MCMC-(SGMCMC-)Verfahren, die Standard-Probabilistikmethoden zur Simulation tiefen neuronalen Netze (DNNs), unmöglich machen. In diesem Artikel schlagen wir einen adaptiven Replica-Exchange-SGMCMC-(reSGMCMC-)Algorithmus vor, der die Verzerrung automatisch korrigiert und die entsprechenden Eigenschaften untersucht. Die Analyse deutet auf ein Beschleunigungs-Genauigkeits-Trade-off bei der numerischen Diskretisierung eines Markov-Sprungprozesses in einem stochastischen Umfeld hin. Empirisch testen wir den Algorithmus anhand umfangreicher Experimente unter verschiedenen Konfigurationen und erzielen state-of-the-art-Ergebnisse auf CIFAR10, CIFAR100 und SVHN sowohl in überwachten als auch in halbüberwachten Lernaufgaben.

Nicht-konvexes Lernen mittels Replica-Exchange-Stochastic-Gradient-MCMC | Neueste Forschungsarbeiten | HyperAI