HyperAI

Réalignement Du Temps De Décodage

Le réalignement du temps de décodage (DeRa) est une méthode permettant d'ajuster le degré d'alignement du modèle lorsqu'un modèle de langage génère une réponse. Il a été proposé en 2024 par des chercheurs de l'Université de Bâle en Suisse, d'universités du Royaume-Uni et de France, ainsi que de Google DeepMind et de Google Research.Réalignement des modèles de langage au moment du décodage" a été accepté par l'ICML-2024 et sélectionné comme présentation phare (ne représentant que 3,5% du total des soumissions).

L'idée principale de cette technologie est d'ajuster dynamiquement l'alignement du modèle pendant le processus de décodage sans réentraîner le modèle, économisant ainsi des ressources informatiques et améliorant l'efficacité de la recherche. Plus précisément, la méthode de réalignement du temps de décodage (DeRa) est capable d’ajuster l’équilibre entre récompense et régularisation lors de la génération de réponses. Il permet de contrôler le degré d'alignement du modèle en interpolant le modèle de réglage fin supervisé (SFT) et le modèle aligné sur la sortie d'origine (logits) pour approximer différentes forces de régularisation. Cette méthode est simple et flexible, et permet d’ajuster la force de l’alignement en fonction de différents besoins, tout en évitant la surcharge de calcul liée à la formation répétée du modèle.

De plus, cette technologie a montré de bons résultats dans de nombreuses expériences. Par exemple, des expériences sur le modèle Zephyr-7b montrent comment DeRa ajuste l'alignement du modèle de langage pendant le décodage, et des expériences sur la longueur de génération et les tâches récapitulatives vérifient la similitude de DeRa avec le modèle recyclé et son potentiel de réduction des hallucinations.