Command Palette
Search for a command to run...
Giorgos Nikolaou Tommaso Mencattini Donato Crisostomi Andrea Santilli Yannis Panagakis Emanuele Rodola'
Abstract
Transformerkomponenten wie nichtlineare Aktivierungen und Normalisierung sind inhärent nicht injektiv, was darauf hindeutet, dass verschiedene Eingaben auf denselben Ausgabewert abbilden können und somit die exakte Rekonstruktion der Eingabe aus den Darstellungen des Modells verhindern. In diesem Paper stellen wir diese Sichtweise in Frage. Erstens beweisen wir mathematisch, dass Transformer-Sprachmodelle, die diskrete Eingabesequenzen auf die entsprechenden Sequenzen kontinuierlicher Darstellungen abbilden, injektiv – und somit verlustfrei – sind, wobei diese Eigenschaft bereits bei der Initialisierung gegeben ist und während des Trainings erhalten bleibt. Zweitens bestätigen wir dieses Ergebnis empirisch anhand von Milliarden von Kollisionsprüfungen an sechs state-of-the-art-Sprachmodellen, wobei wir keine Kollisionen beobachten konnten. Drittens operationalisieren wir Injektivität: Wir stellen SipIt vor, den ersten Algorithmus, der die exakte Rekonstruktion des ursprünglichen Textes aus den versteckten Aktivierungen beweisbar und effizient ermöglicht, wobei lineare Laufzeitsicherheiten gegeben sind und die exakte Invertierbarkeit in der Praxis demonstriert wird. Insgesamt etabliert unsere Arbeit die Injektivität als eine fundamentale und ausnutzbare Eigenschaft von Sprachmodellen mit unmittelbaren Konsequenzen für Transparenz, Interpretierbarkeit und sichere Bereitstellung.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.