vor 2 Monaten

Lernen von längeren Abhängigkeiten in RNNs mit Hilfsverlusten

Trieu H. Trinh; Andrew M. Dai; Minh-Thang Luong; Quoc V. Le

Abstract

Trotz der jüngsten Fortschritte bei der Ausbildung von rekurrenten neuronalen Netzen (RNNs) bleibt die Erfassung langer zeitlicher Abhängigkeiten in Sequenzen eine grundlegende Herausforderung. Die meisten Ansätze verwenden die Rückwärtspropagation durch die Zeit (BPTT), die es schwierig macht, diese Methode auf sehr lange Sequenzen zu skalieren. In dieser Arbeit wird eine einfache Methode vorgeschlagen, die die Fähigkeit zur Erfassung langer zeitlicher Abhängigkeiten in RNNs verbessert, indem ein unüberwachter Nebenverlust (auxiliary loss) zum ursprünglichen Ziel hinzugefügt wird. Dieser Nebenverlust zwingt RNNs entweder, frühere Ereignisse in einer Sequenz zu rekonstruieren, oder zukünftige Ereignisse vorherzusagen, was die abgeschnittene Rückwärtspropagation für lange Sequenzen möglich macht und auch das vollständige BPTT verbessert. Wir evaluieren unsere Methode in verschiedenen Szenarien, darunter der pixelweise Bildklassifizierung mit Sequenzlängen bis zu 16.000 und einem realen Dokumentklassifikationsbenchmark. Unsere Ergebnisse unterstreichen die gute Leistungsfähigkeit und Ressourceneffizienz dieses Ansatzes im Vergleich zu wettbewerbsfähigen Baselines, einschließlich anderer rekurrenter Modelle und einem vergleichbar großen Transformer-Modell. Weitere Analysen zeigen positive Effekte des Nebenverlustes auf die Optimierung und Regularisierung sowie Extremfälle, in denen kaum oder gar keine Rückwärtspropagation stattfindet.