HyperAI

Kontextpositionskodierung (CoPE)

CoPE oder Contextual Position Encoding ist eine innovative Methode zur Positionskodierung, die in der Studie vorgeschlagen wird. „Kontextuelle Positionskodierung: Lernen, das Wichtige zu zählen“Vorgeschlagen im Jahr 2024. Es durchbricht die Beschränkungen der traditionellen Positionskodierung (PE) basierend auf Token-Zählungen, ermöglicht die dynamische Änderung von Positionsinformationen entsprechend den Kontextbedingungen und bietet flexiblere Funktionen zur Sequenzdatenverarbeitung für große Sprachmodelle (LLMs).

In großen Sprachmodellen (LLMs) kann der Aufmerksamkeitsmechanismus zwar die Interaktion zwischen Sequenzelementen realisieren, enthält jedoch selbst keine Reihenfolgeinformationen und weist die Eigenschaft der Permutationsinvarianz auf. Um sequentielle Informationen einzuführen, ist es normalerweise notwendig, eine Positionskodierung einzuführen. Herkömmliche Methoden der Positionskodierung basieren jedoch auf der Anzahl der Token, was die Fähigkeit des Modells zur Verallgemeinerung auf höhere Abstraktionsebenen, wie etwa die direkte Lokalisierung des i-ten Satzes in einer Sequenz, einschränkt.

CoPE setzt seine Kernidee durch die folgenden Schlüsselschritte um:

  1. Kontextvektorbestimmung: CoPE verwendet den Kontextvektor, um das Token zu bestimmen, das gezählt werden soll.
  2. Anwendung des Angussmechanismus: Durch einen Gate-Mechanismus entscheidet CoPE, welche Token in die Standortmessung einbezogen werden.
  3. Relative Positionsberechnung: Für ein gegebenes aktuelles Token als Abfragevektor berechnet CoPE den Gate-Wert zwischen diesem und den Schlüsselvektoren aller vorherigen Token in der Sequenz und aggregiert diese Gate-Werte, um die relative Position jedes Tokens in Bezug auf das aktuelle Token zu bestimmen.
  4. Einbettung der Interpolationsberechnungsposition: Anders als bei der Methode, jeder Position einen festen Einbettungsvektor zuzuweisen, berechnet CoPE die Positionseinbettung dynamisch durch Interpolation.

Der Vorteil von CoPE liegt in seiner mehrdimensionalen Flexibilität:

  • Mehrgerätemessung: CoPE ermöglicht dem Modell, Entfernungen in mehreren Einheiten wie Wörtern, Phrasen oder Sätzen zu messen, je nach Abfrage und Ebene.
  • Dynamische Anpassung an den Kontext: CoPE kann sich flexibel an unterschiedliche Kontextumgebungen anpassen und eine dynamische und kontextbezogene Methode zur Verarbeitung von Sequenzdaten bereitstellen.
  • Leistungsverbesserungen: Bei Aufgaben wie Zählaufgaben, selektiven Kopieraufgaben und Sprachmodellierung zeigt CoPE eine bessere Leistung als herkömmliche tokenbasierte Positionskodierungsmethoden, insbesondere bei der Verarbeitung von Daten außerhalb der Verteilung und bei Aufgaben, die ein hohes Generalisierungsvermögen erfordern.

Die Anwendung von CoPE in Multi-Head Attention ist ebenso intuitiv:

  • Unabhängige Ausführung: Jeder Aufmerksamkeitskopf kann unabhängig seinen eigenen CoPE durchführen, um unterschiedliche Positionsmessungen zu erreichen.
  • Mehrere Abstraktionsebenen: Das Modell kann sich gleichzeitig auf verschiedene Abstraktionsebenen konzentrieren, beispielsweise kann ein Kopf Token zählen, während ein anderer Kopf Sätze zählen kann.

Zusammenfassend lässt sich sagen, dass CoPE durch die Kombination der Positionskodierung mit Kontextinformationen eine effizientere und flexiblere Strategie zur Positionskodierung für große Sprachmodelle bietet. Dies hilft dem Modell, die strukturellen und semantischen Informationen in Sequenzdaten besser zu verstehen und zu verarbeiten.