HyperAIHyperAI

Command Palette

Search for a command to run...

Wissen im Kontext: Hin zum wissensbasierten semi-parametrischen Sprachmodell

Xiaoman Pan Wenlin Yao Hongming Zhang Dian Yu Dong Yu Jianshu Chen

Zusammenfassung

Vollständig parametrische Sprachmodelle erfordern in der Regel eine enorme Anzahl an Modellparametern, um die notwendige Wissensbasis für die Lösung mehrerer natürlicher Sprachaufgaben in Zero-/Few-Shot-Szenarien zu speichern. Zudem ist eine Anpassung an sich ständig verändernde Weltkenntnisse ohne den kostspieligen Prozess des erneuten Trainings schwer realisierbar. In diesem Artikel entwickeln wir eine neuartige semi-parametrische Architektur für Sprachmodelle, namens Knowledge-in-Context (KiC), die ein parametrisches Text-zu-Text-Sprachmodell mit einem wissensreichen externen Speicher ausstattet. Konkret enthält der externe Speicher sechs verschiedene Wissensarten: Entitäten, Wörterbücher, Alltagswissen, Ereignisse, Szenarien und Kausalitätswissen. Für jede Eingabedateninstanz wählt das KiC-Modell adaptiv eine Wissensart aus und ruft die hilfreichsten Wissensstücke ab. Die Eingabedateninstanz zusammen mit der Wissensverstärkung wird dann in ein Text-zu-Text-Modell (z. B. T5) eingespeist, um die Ausgabeantwort zu generieren, wobei sowohl Eingabe als auch Ausgabe nach einer Prompting-Phase in natürlicher Sprache vorliegen. Interessanterweise stellen wir fest, dass KiC als eine spezielle Mischung aus Experten (Mixture-of-Experts, MoE) identifiziert werden kann, wobei der Wissensauswahler die Rolle eines Routers übernimmt, der die Zuordnung von Sequenzen zu Experten in MoE bestimmt. Diese zentrale Beobachtung inspiriert uns zu einem neuartigen Trainingsalgorithmus für KiC mit einem instanzadaptiven Wissensauswahler. Als wissensreiche semi-parametrische Sprachmodellarchitektur benötigt KiC lediglich einen wesentlich kleineren parametrischen Teil, um eine herausragende Zero-Shot-Leistung auf bisher nicht gesehenen Aufgaben zu erzielen. Durch die Evaluation auf über 40 verschiedenen Aufgaben zeigen wir, dass KiC_Large mit nur 770 M Parametern große Sprachmodelle (LMs), die 4- bis 39-mal größer sind, mit einer erheblichen Lücke übertrifft. Zudem demonstrieren wir, dass KiC bereits bei deutlich kleinerer Modellgröße emergente Fähigkeiten aufweist im Vergleich zu vollständig parametrischen Modellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wissen im Kontext: Hin zum wissensbasierten semi-parametrischen Sprachmodell | Paper | HyperAI