Apprentissage de l'encodage de position pour les Transformers à l'aide d'un modèle dynamique continu

Nous introduisons une nouvelle approche pour encoder l'information de position dans les modèles non récurrents, tels que les modèles Transformer. Contrairement aux réseaux de neurones récurrents (RNN) et aux LSTM, qui intègrent une biais inductif grâce à la lecture séquentielle des tokens d'entrée, les modèles non récurrents sont moins sensibles à la position. La principale raison réside dans le fait que l'information de position entre les unités d'entrée n'est pas intrinsèquement codée, c’est-à-dire que ces modèles sont équivalents sous permutation ; cette propriété justifie pourquoi tous les modèles existants incluent une couche d’encodage ou d’embedding sinusoidal à l’entrée. Toutefois, cette solution présente des limites évidentes : l’encodage sinusoidal manque de flexibilité, étant conçu de manière fixe et ne comportant aucun paramètre apprenable, tandis que l’embedding de position limite la longueur maximale des séquences d’entrée. Il est donc souhaitable de concevoir une nouvelle couche de position dotée de paramètres apprenables, capable de s’adapter à différents jeux de données et architectures. Par ailleurs, nous souhaitons que ces encodages soient capables d’extrapoler en fonction de la longueur variable des entrées. Dans notre proposition, nous nous inspirons de l’approche récente des Neural ODE, qui peut être vue comme une version continue polyvalente d’un ResNet. Ce modèle est capable de modéliser divers types de systèmes dynamiques. Nous modélisons l’évolution des représentations encodées en fonction de l’indice de position à l’aide d’un tel système dynamique, permettant ainsi de surmonter les limitations des méthodes existantes. Nous évaluons nos nouvelles couches de position sur une variété de tâches de traduction automatique et de compréhension du langage, et les résultats expérimentaux montrent des améliorations constantes par rapport aux méthodes de référence.