vor einem Monat

LayerCake: Token-bewusstes kontrastives Decodieren innerhalb von Schichten großer Sprachmodelle

Jingze Zhu, Yongliang Wu, Wenbo Zhu, Jiawang Cao, Yanqiang Zheng, Jiawei Chen, Xu Yang, Bernt Schiele, Jonas Fischer, Xinting Hu

Details der Forschungsarbeit anzeigen

LayerCake: Token-bewusstes kontrastives Decodieren innerhalb von Schichten großer Sprachmodelle

Abstract

Große Sprachmodelle (LLMs) zeichnen sich durch ihre Fähigkeiten im Verstehen und Generieren natürlicher Sprache aus, sind jedoch anfällig für faktische Fehler, was ihre Zuverlässigkeit bei wissensintensiven Aufgaben einschränkt. Obwohl dekodierungszeitliche Strategien eine vielversprechende effiziente Lösung ohne zusätzliches Training bieten, behandeln bestehende Methoden in der Regel tokenbasierte und schichtbasierte Signale getrennt voneinander, wobei sie die gemeinsamen Dynamiken zwischen ihnen vernachlässigen. In dieser Arbeit stellen wir eine tokenbewusste, schichtlokalisierte kontrastive Dekodierungsmethode vor, die bestimmte Tokenarten mit ihren einflussreichsten Transformer-Schichten ausrichtet, um die faktische Generierung zu verbessern. Durch empirische Aufmerksamkeitsanalyse identifizieren wir zwei zentrale Muster: Satzzeichen-Token erhalten in den frühen Schichten dominante Aufmerksamkeit, während konzeptuelle Token die semantische Schlussfolgerung in den mittleren Schichten steuern. Durch selektives Dämpfen der Aufmerksamkeit für diese Tokenarten in ihren jeweiligen Tiefen erreichen wir eine kontrollierte faktische Degradation und leiten kontrastive Signale ab, um das endgültige faktische Dekodieren zu leiten. Unsere Methode erfordert kein zusätzliches Training oder Modellmodifikationen, und Experimente zeigen, dass unsere Methode konsistent die Faktualität bei mehreren großen Sprachmodellen und verschiedenen Benchmarks verbessert.