HyperAIHyperAI
il y a un mois

LayerCake : Décodage contrastif sensible aux jetons au sein des couches de grands modèles linguistiques

Jingze Zhu, Yongliang Wu, Wenbo Zhu, Jiawang Cao, Yanqiang Zheng, Jiawei Chen, Xu Yang, Bernt Schiele, Jonas Fischer, Xinting Hu
LayerCake : Décodage contrastif sensible aux jetons au sein des couches de grands modèles linguistiques
Résumé

Les grands modèles de langage (LLMs) excellent dans la compréhension et la génération du langage naturel, mais restent vulnérables aux erreurs factuelles, ce qui limite leur fiabilité dans les tâches nécessitant une connaissance approfondie. Bien que les stratégies d'encodage en temps réel offrent une solution prometteuse et efficace sans entraînement supplémentaire, les méthodes existantes traitent généralement les signaux au niveau des jetons et au niveau des couches de manière isolée, négligeant ainsi la dynamique conjointe entre eux. Dans cette étude, nous introduisons une méthode d'encodage contrastif localisé aux couches et sensible aux jetons qui aligne des types de jetons spécifiques avec leurs couches de transformateur les plus influentes pour améliorer la génération factuelle. Grâce à une analyse empirique de l'attention, nous identifions deux schémas clés : les jetons de ponctuation reçoivent une attention dominante dans les premières couches, tandis que les jetons conceptuels régissent le raisonnement sémantique dans les couches intermédiaires. En supprimant sélectivement l'attention à ces types de jetons selon leurs profondeurs respectives, nous parvenons à induire une dégradation factuelle contrôlée et à dériver des signaux contrastifs pour guider le décodage factuel final. Notre méthode ne nécessite aucun entraînement supplémentaire ni modification du modèle, et les expériences montrent que notre méthode améliore constamment la factalité sur plusieurs grands modèles de langage et diverses évaluations.