HyperAIHyperAI
vor 17 Tagen

Hypothese der breiten Minima und Lernraten-Schema aus Erkundung und Ausbeutung

Nikhil Iyer, V Thejas, Nipun Kwatra, Ramachandran Ramjee, Muthian Sivathanu
Hypothese der breiten Minima und Lernraten-Schema aus Erkundung und Ausbeutung
Abstract

Mehrere Arbeiten argumentieren, dass breite Minima eine bessere Generalisierungsfähigkeit aufweisen als enge Minima. In diesem Paper bestätigen wir durch detaillierte Experimente nicht nur die Generalisierungseigenschaften breiter Minima, sondern liefern auch empirische Evidenz für eine neue Hypothese: Die Dichte breiter Minima ist wahrscheinlich geringer als die von engen Minima. Ausgehend von dieser Hypothese entwerfen wir ein neuartiges Explore-Exploit-Lernraten-Scheduling. Auf einer Vielzahl von Bild- und Sprachdatensätzen zeigen wir, dass unser Explore-Exploit-Scheduling gegenüber den ursprünglichen, von Hand abgestimmten Lernraten-Baselines entweder eine um bis zu 0,84 % höhere absolute Genauigkeit bei gleichem Trainingsbudget ermöglicht oder bis zu 57 % weniger Trainingszeit benötigt, während die ursprünglich berichtete Genauigkeit erreicht wird. Beispielsweise erreichen wir für den IWSLT’14 (DE-EN)-Datensatz eine state-of-the-art (SOTA)-Genauigkeit, indem wir lediglich die Lernraten-Scheduling-Strategie eines hochperformanten Modells anpassen.

Hypothese der breiten Minima und Lernraten-Schema aus Erkundung und Ausbeutung | Neueste Forschungsarbeiten | HyperAI