K-Adapter: Wissensintegration in vortrainierte Modelle mittels Adapter

Wir untersuchen das Problem der Wissensinjektion in große vortrainierte Modelle wie BERT und RoBERTa. Bestehende Ansätze aktualisieren typischerweise die ursprünglichen Parameter vortrainierter Modelle, wenn Wissen injiziert wird. Allerdings wird historisch injiziertes Wissen bei der Injektion mehrerer Wissensarten oft verdrängt. Um dieses Problem zu lösen, schlagen wir K-Adapter vor, einen Rahmen, der die ursprünglichen Parameter des vortrainierten Modells fixiert und die Entwicklung vielseitiger, wissensbasiert infizierter Modelle ermöglicht. Basierend auf RoBERTa verfügt K-Adapter für jede Art injizierten Wissens über einen neuronalen Adapter – wie ein Plug-in, das an RoBERTa angekoppelt ist. Zwischen den verschiedenen Adaper besteht kein Informationsfluss, wodurch mehrere Adapter effizient verteilte Trainingsprozesse ermöglichen. Als Fallstudie injizieren wir in dieser Arbeit zwei Arten von Wissen: (1) faktisches Wissen, das aus automatisch ausgerichteten Text-Tripeln aus Wikipedia und Wikidata gewonnen wurde, und (2) sprachliches Wissen, das mittels Dependency-Parsing ermittelt wurde. Ergebnisse auf drei wissensbasierten Aufgaben – einschließlich Relationenklassifikation, Entitäts-Typisierung und Fragebeantwortung – zeigen, dass jeder Adapter die Leistung verbessert und die Kombination beider Adapter zusätzliche Verbesserungen bringt. Eine weitere Analyse zeigt, dass K-Adapter vielseitigeres Wissen als RoBERTa erfasst.