HyperAIHyperAI
vor 17 Tagen

Wissensbasierte Decoding

Ruibo Liu, Guoqing Zheng, Shashank Gupta, Radhika Gaonkar, Chongyang Gao, Soroush Vosoughi, Milad Shokouhi, Ahmed Hassan Awadallah
Wissensbasierte Decoding
Abstract

Vortrainierte Sprachmodelle (LMs) haben sich als in der Lage erwiesen, eine erhebliche Menge an Wissen aus den Vortrainingskorpora zu speichern; dennoch sind sie bei der Wiedergabe faktisch korrekten Wissens in einem gegebenen Kontext weiterhin eingeschränkt. Daher neigen sie dazu, bei der Anwendung in wissensintensiven Aufgaben der natürlichen Sprachgenerierung (NLG) fehlerhafte oder hallucinatorische Texte zu erzeugen. Rezenten Ansätze zur Lösung dieses Problems konzentrieren sich darauf, entweder das Vortrainings- oder das Feintuning-Ziel zu modifizieren, um Wissen einzubeziehen – dies erfordert normalerweise zusätzliche, kostspielige Trainingsprozesse oder Architekturveränderungen der LMs, was die praktische Anwendung erschwert. Wir stellen Knowledge Infused Decoding (KID) vor – einen neuartigen Decoding-Algorithmus für generative LMs, der externes Wissen dynamisch in jeden Schritt des Decoding-Prozesses integriert. Konkret pflegen wir eine lokale Wissensspeicherung basierend auf dem aktuellen Kontext, die mit einem dynamisch erstellten externen Wissens-Trie interagiert, und aktualisieren diesen lokalen Speicher kontinuierlich als wissensbasierte Einschränkung zur Steuerung des Decoding-Prozesses mittels Verstärkungslernen. Auf sechs unterschiedlichen, wissensintensiven NLG-Aufgaben übertrifft das task-agnostische LM (z. B. GPT-2 oder BART), das mit KID ausgestattet ist, viele task-optimierte State-of-the-Art-Modelle und zeigt insbesondere in Few-Shot-Szenarien eine herausragende Leistung gegenüber sieben verwandten Techniken zur Wissensintegration. Eine menschliche Bewertung bestätigt, dass KID in der Lage ist, relevanteren und faktisch korrekteren Text im Kontext der Eingabe zu generieren als mehrere Baseline-Modelle. Schließlich reduziert KID auch die Exposure-Bias-Problematik und gewährleistet eine stabile Generationsqualität bei der Erzeugung längerer Textsequenzen. Der Quellcode für KID ist unter https://github.com/microsoft/KID verfügbar.

Wissensbasierte Decoding | Neueste Forschungsarbeiten | HyperAI