HyperAIHyperAI
vor 17 Tagen

Aufmerksamkeitsbiasierte stochastische Gradientenabstiegsmethode

Qi Qi, Yi Xu, Rong Jin, Wotao Yin, Tianbao Yang
Aufmerksamkeitsbiasierte stochastische Gradientenabstiegsmethode
Abstract

In diesem Artikel präsentieren wir eine einfache, aber effektive nachweisbare Methode (ABSGD genannt), um das Problem der Datenungleichgewichtigkeit oder der Etikettierungsstörungen im Bereich des tiefen Lernens zu bewältigen. Unsere Methode stellt eine einfache Modifikation des Impuls-SGD dar, bei der jedem Beispiel in einem Mini-Batch eine individuelle Gewichtung zugeordnet wird. Das individuelle Gewicht der abgetasteten Daten ist systematisch proportional zur Exponentialfunktion eines skalierten Verlustwerts des jeweiligen Datensatzes, wobei der Skalierungsfaktor als Regularisierungsparameter im Rahmen der verteilungsrobusten Optimierung (Distributionally Robust Optimization, DRO) interpretiert werden kann. Abhängig davon, ob der Skalierungsfaktor positiv oder negativ ist, ist garantiert, dass ABSGD konvergiert gegen einen stationären Punkt eines informationsregularisierten Minimax- oder Min-Min-DRO-Problems, jeweils entsprechend. Im Vergleich zu bestehenden Klassen-level-Gewichtungsschemata kann unsere Methode die Vielfalt zwischen einzelnen Beispielen innerhalb jeder Klasse besser erfassen. Im Gegensatz zu bestehenden Methoden auf individueller Ebene, die Meta-Lernen verwenden und zur Berechnung der Mini-Batch-Stochastischen Gradienten drei Rückwärtspropagationen erfordern, ist unsere Methode effizienter und benötigt bei jeder Iteration lediglich eine Rückwärtspropagation – wie bei herkömmlichen tiefen Lernverfahren. ABSGD ist flexibel genug, um mit anderen robusten Verlustfunktionen ohne zusätzlichen Aufwand kombiniert zu werden. Unsere empirischen Studien an mehreren Benchmark-Datensätzen belegen die Wirksamkeit der vorgeschlagenen Methode.\footnote{Der Code ist verfügbar unter: \url{https://github.com/qiqi-helloworld/ABSGD/}}