vor 3 Monaten

Pingan Smart Health und SJTU am COIN – Shared Task: Nutzung vortrainierter Sprachmodelle und allgemeinen Wissens in maschinellen Leseaufgaben

{Wei Zhu, Peng Gao, Zheng Li, Xiepeng Li, Junchi Yan, Yuan Ni, Zhexi Zhang, Guotong Xie}

Abstract

Um die gemeinsamen Aufgaben des COIN (COmmonsense INference in Natural Language Processing) Workshops zu lösen, müssen wir den Einfluss der Wissensrepräsentation bei der Modellierung von Alltagswissen untersuchen, um die Leistungsfähigkeit von Maschinenleseverständnis-Systemen über einfache Textübereinstimmung hinaus zu steigern. Es existieren zwei Ansätze zur Repräsentation von Wissen im niedrigdimensionalen Raum. Der erste besteht darin, große, unüberwachte Textkorpora zu nutzen, um entweder feste oder kontextuelle Sprachrepräsentationen zu trainieren. Der zweite Ansatz besteht darin, Wissen explizit in einem Wissensgraphen (Knowledge Graph, KG) auszudrücken und anschließend ein Modell zu schulen, das die Fakten im KG repräsentieren kann. Wir haben zwei Ansätze experimentell evaluiert: (a) die Verbesserung des Feinabstimmens vortrainierter Sprachmodelle auf einer Aufgabe mit kleinem Datensatzumfang durch Nutzung von Datensätzen ähnlicher Aufgaben; und (b) die Integration der verteilten Repräsentationen eines Wissensgraphen in die Repräsentationen vortrainierter Sprachmodelle mittels einfacher Verkettung oder Multi-Head-Attention. Unsere Ergebnisse zeigen Folgendes: (a) Für Aufgabe 1 führt eine erste Feinabstimmung auf größeren Datensätzen wie RACE (Lai et al., 2017) und SWAG (Zellers et al., 2018), gefolgt von einer zweiten Feinabstimmung auf der Ziel-Aufgabe, zu einer signifikanten Leistungssteigerung; (b) Für Aufgabe 2 zeigt sich, dass die Integration eines Wissensgraphen mit Alltagswissen, WordNet (Miller, 1995), in das Bert-Modell (Devlin et al., 2018), hilfreich ist; dies führt jedoch bei XLNet (Yang et al., 2019), einem leistungsfähigeren vortrainierten Modell, zu einer Leistungsminderung. Unsere Ansätze erreichen auf beiden gemeinsamen Aufgaben die derzeit beste Leistung auf den offiziellen Testdaten des Workshops und schlagen damit alle anderen eingereichten Lösungen.