$\infty$-former: Transformer mit unendlichem Gedächtnis

Transformers sind nicht in der Lage, langfristige Erinnerungen effektiv zu modellieren, da die benötigte Rechenleistung mit der Länge des Kontexts ansteigt. Obwohl verschiedene effiziente Varianten von Transformers vorgeschlagen wurden, weisen alle eine endliche Speicherkapazität auf und sind gezwungen, alte Informationen zu verwerfen. In diesem Paper stellen wir den $\infty$-former vor, der den klassischen Transformer mit einem unbeschränkten Langzeitgedächtnis erweitert. Durch die Nutzung eines kontinuierlichen Raum-Attention-Mechanismus zur Aufmerksamkeit über das Langzeitgedächtnis wird die Komplexität der Aufmerksamkeit des $\infty$-former unabhängig von der Kontextlänge, wobei ein Kompromiss zwischen Speicherdauer und Präzision eingegangen wird. Um zu steuern, wo höhere Präzision erforderlich ist, hält der $\infty$-former „klebrige Erinnerungen“ aufrecht, wodurch beliebig lange Kontexte modelliert werden können, während das Berechnungsbudget konstant bleibt. Experimente an einer synthetischen Sortieraufgabe, der Sprachmodellierung und der dokumentenbasierten Dialoggenerierung demonstrieren die Fähigkeit des $\infty$-former, Informationen aus langen Sequenzen zu bewahren.