Codage De La Position Du Contexte (CoPE)
CoPE, ou Contextual Position Encoding, est une méthode innovante de codage de position proposée par le journal « Encodage de position contextuel : apprendre à compter ce qui est important »Proposé en 2024. Il dépasse les limites du codage de position traditionnel (PE) basé sur le nombre de jetons, permet aux informations de position de changer dynamiquement en fonction des conditions de contexte et fournit des capacités de traitement de données de séquence plus flexibles pour les grands modèles de langage (LLM).
Dans les grands modèles de langage (LLM), bien que le mécanisme d'attention puisse réaliser l'interaction entre les éléments de séquence, il ne contient pas lui-même d'informations d'ordre et présente la caractéristique d'invariance de permutation. Afin d'introduire des informations séquentielles, il est généralement nécessaire d'introduire un codage de position. Cependant, les méthodes traditionnelles de codage positionnel sont basées sur le nombre de jetons, ce qui limite la capacité du modèle à généraliser à des niveaux d'abstraction plus élevés, comme la localisation directe de la i-ème phrase dans une séquence.
CoPE met en œuvre son idée fondamentale à travers les étapes clés suivantes :
- Détermination du vecteur de contexte:CoPE utilise le vecteur de contexte pour déterminer le jeton qui doit être compté.
- Application du mécanisme de déclenchement:Grâce à un mécanisme de porte, CoPE décide quels jetons sont inclus dans la mesure de localisation.
- Calcul de position relative: Pour un jeton actuel donné en tant que vecteur de requête, CoPE calcule la valeur de porte entre celui-ci et les vecteurs clés de tous les jetons précédents de la séquence, et agrège ces valeurs de porte pour déterminer la position relative de chaque jeton par rapport au jeton actuel.
- Incorporation de position de calcul d'interpolation:Différente de la méthode d'attribution d'un vecteur d'intégration fixe à chaque position, CoPE calcule dynamiquement l'intégration de position par interpolation.
L’avantage de CoPE réside dans sa flexibilité multidimensionnelle :
- Mesure multi-unités:CoPE permet au modèle de mesurer les distances dans plusieurs unités telles que des mots, des phrases ou des phrases, en fonction de la requête et de la couche.
- S'adapter dynamiquement au contexte:CoPE peut s'adapter de manière flexible à différents environnements contextuels et fournir une méthode de traitement de données de séquence dynamique et liée au contexte.
- Améliorations des performances:Dans des tâches telles que les tâches de comptage, les tâches de copie sélective et la modélisation du langage, CoPE démontre des performances supérieures aux méthodes traditionnelles de codage positionnel basées sur des jetons, en particulier dans le traitement des données hors distribution et des tâches qui nécessitent des capacités de généralisation élevées.
L'application de CoPE dans l'attention multi-têtes est tout aussi intuitive :
- Exécution indépendante:Chaque tête d'attention peut effectuer indépendamment son propre CoPE pour obtenir différentes mesures de position.
- Plusieurs niveaux d'abstraction:Le modèle est capable de se concentrer sur différents niveaux d'abstraction simultanément, par exemple, une tête peut compter des jetons tandis qu'une autre tête peut compter des phrases.
En résumé, CoPE fournit une stratégie d’encodage positionnel plus efficace et plus flexible pour les grands modèles de langage en combinant l’encodage positionnel avec des informations contextuelles, ce qui aide le modèle à comprendre et à traiter plus en profondeur les informations structurelles et sémantiques dans les données de séquence.