HyperAI

Diff-Transformator

Differential Transformer (kurz Diff Transformer) ist eine neue Transformer-Architektur, die 2024 gemeinsam von Microsoft Research und der Tsinghua-Universität vorgeschlagen wurde. Die zugehörigen Ergebnisse der Studie lauten:Differenzialtransformator", 4 Co-Autoren: Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun. Der Kern dieser Architektur liegt in ihrem Mechanismus der differenziellen Aufmerksamkeit, der darauf abzielt, das Problem zu lösen, dass herkömmliche Transformer bei der Verarbeitung langer Texte Schwierigkeiten haben, Schlüsselinformationen genau abzurufen, was das sogenannte Phänomen des "Zwischeninformationsverlusts" ist.

Diff Transformer berechnet zwei unabhängige Softmax-Aufmerksamkeitskarten und ermittelt dann aus der Differenz den endgültigen Aufmerksamkeitswert. Mit dieser Methode können Aufmerksamkeitsstörungen wirksam beseitigt werden und das Modell kann dazu veranlasst werden, den relevantesten Teilen der Eingabe mehr Aufmerksamkeit zu schenken. Dieser Mechanismus ähnelt geräuschunterdrückenden Kopfhörern und Differenzverstärkern in der Elektrotechnik, die Geräusche durch Ausnutzung der Differenz zwischen zwei Signalen unterdrücken.

Experimentelle Ergebnisse zeigen, dass Diff Transformer bei Sprachmodellierungsaufgaben unter verschiedenen Bedingungen herkömmliche Transformer übertrifft. Es ist nicht nur hinsichtlich der Modellgröße und der Anzahl der Trainingstoken skalierbar, sondern bietet auch erhebliche Vorteile bei praktischen Anwendungen wie der Langzeitkontextmodellierung, dem Abrufen wichtiger Informationen, der Linderung von Halluzinationen und dem kontextuellen Lernen. Darüber hinaus kann Diff Transformer Ausreißer in Modellaktivierungswerten effektiv reduzieren, ist benutzerfreundlicher bei der Modellquantisierung und verbessert die Modelleffizienz.

Die Einführung des Diff Transformer liefert neue Ideen für die Entwicklung großer Sprachmodelle und wird voraussichtlich in vielen Bereichen wie intelligenten Dialogsystemen, der Textgenerierung und der Datenextraktion eine wichtige Rolle spielen.