HyperAIHyperAI

Command Palette

Search for a command to run...

Hypothese der breiten Minima und Lernraten-Schema aus Erkundung und Ausbeutung

Nikhil Iyer V Thejas Nipun Kwatra Ramachandran Ramjee Muthian Sivathanu

Zusammenfassung

Mehrere Arbeiten argumentieren, dass breite Minima eine bessere Generalisierungsfähigkeit aufweisen als enge Minima. In diesem Paper bestätigen wir durch detaillierte Experimente nicht nur die Generalisierungseigenschaften breiter Minima, sondern liefern auch empirische Evidenz für eine neue Hypothese: Die Dichte breiter Minima ist wahrscheinlich geringer als die von engen Minima. Ausgehend von dieser Hypothese entwerfen wir ein neuartiges Explore-Exploit-Lernraten-Scheduling. Auf einer Vielzahl von Bild- und Sprachdatensätzen zeigen wir, dass unser Explore-Exploit-Scheduling gegenüber den ursprünglichen, von Hand abgestimmten Lernraten-Baselines entweder eine um bis zu 0,84 % höhere absolute Genauigkeit bei gleichem Trainingsbudget ermöglicht oder bis zu 57 % weniger Trainingszeit benötigt, während die ursprünglich berichtete Genauigkeit erreicht wird. Beispielsweise erreichen wir für den IWSLT’14 (DE-EN)-Datensatz eine state-of-the-art (SOTA)-Genauigkeit, indem wir lediglich die Lernraten-Scheduling-Strategie eines hochperformanten Modells anpassen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp