Wissen im Kontext: Hin zum wissensbasierten semi-parametrischen Sprachmodell

Vollständig parametrische Sprachmodelle erfordern in der Regel eine enorme Anzahl an Modellparametern, um die notwendige Wissensbasis für die Lösung mehrerer natürlicher Sprachaufgaben in Zero-/Few-Shot-Szenarien zu speichern. Zudem ist eine Anpassung an sich ständig verändernde Weltkenntnisse ohne den kostspieligen Prozess des erneuten Trainings schwer realisierbar. In diesem Artikel entwickeln wir eine neuartige semi-parametrische Architektur für Sprachmodelle, namens Knowledge-in-Context (KiC), die ein parametrisches Text-zu-Text-Sprachmodell mit einem wissensreichen externen Speicher ausstattet. Konkret enthält der externe Speicher sechs verschiedene Wissensarten: Entitäten, Wörterbücher, Alltagswissen, Ereignisse, Szenarien und Kausalitätswissen. Für jede Eingabedateninstanz wählt das KiC-Modell adaptiv eine Wissensart aus und ruft die hilfreichsten Wissensstücke ab. Die Eingabedateninstanz zusammen mit der Wissensverstärkung wird dann in ein Text-zu-Text-Modell (z. B. T5) eingespeist, um die Ausgabeantwort zu generieren, wobei sowohl Eingabe als auch Ausgabe nach einer Prompting-Phase in natürlicher Sprache vorliegen. Interessanterweise stellen wir fest, dass KiC als eine spezielle Mischung aus Experten (Mixture-of-Experts, MoE) identifiziert werden kann, wobei der Wissensauswahler die Rolle eines Routers übernimmt, der die Zuordnung von Sequenzen zu Experten in MoE bestimmt. Diese zentrale Beobachtung inspiriert uns zu einem neuartigen Trainingsalgorithmus für KiC mit einem instanzadaptiven Wissensauswahler. Als wissensreiche semi-parametrische Sprachmodellarchitektur benötigt KiC lediglich einen wesentlich kleineren parametrischen Teil, um eine herausragende Zero-Shot-Leistung auf bisher nicht gesehenen Aufgaben zu erzielen. Durch die Evaluation auf über 40 verschiedenen Aufgaben zeigen wir, dass KiC_Large mit nur 770 M Parametern große Sprachmodelle (LMs), die 4- bis 39-mal größer sind, mit einer erheblichen Lücke übertrifft. Zudem demonstrieren wir, dass KiC bereits bei deutlich kleinerer Modellgröße emergente Fähigkeiten aufweist im Vergleich zu vollständig parametrischen Modellen.