Nicht alle Erinnerungen sind gleich: Lernen, durch Ablauf zu vergessen

Aufmerksamkeitsmechanismen haben vielversprechende Ergebnisse bei Sequenzmodellierungsaufgaben gezeigt, die eine langfristige Speicherung von Informationen erfordern. Kürzlich wurden Mechanismen untersucht, um die rechnerischen Kosten für die Erhaltung und Speicherung von Erinnerungen zu verringern. Doch nicht alle Inhalte aus der Vergangenheit sind gleich wichtig, um sich zu merken. Wir stellen Expire-Span vor, eine Methode, die lernt, die wichtigsten Informationen zu behalten und unwichtige Informationen zu verwerfen. Dieses gezielte Vergessen von Erinnerungen ermöglicht es Transformers, effizient über Zehntausende vorheriger Zeitpunkte hinweg zu achten, da nicht alle Zustände aus früheren Zeitpunkten aufbewahrt werden müssen. Wir zeigen, dass Expire-Span Modellen hilft, kritische Informationen zu identifizieren und zu speichern, und dass sie starke Leistung bei Verstärkungslernaufgaben erzielt, die speziell darauf abgestimmt sind, diese Funktionalität herauszufordern. Anschließend demonstrieren wir, dass Expire-Span Skalierbarkeit bis hin zu Erinnerungsspeichern von Zehntausenden Einheiten ermöglicht und damit einen neuen Stand der Technik bei extrem langen Kontextaufgaben wie der zeichenbasierten Sprachmodellierung sowie einer frame-basierten Aufgabe mit bewegten Objekten erreicht. Schließlich analysieren wir die Effizienz von Expire-Span im Vergleich zu bestehenden Ansätzen und zeigen, dass es schneller trainiert und weniger Speicher benötigt.