Zähmung vortrainierter Sprachmodelle mit N-Gram-Darstellungen für die Low-Resource-Domänanpassung

Große vortrainierte Modelle wie BERT sind bekannt dafür, verschiedene abgeleitete NLP-Aufgaben zu verbessern, selbst wenn das Modell auf einem generischen Domänenkorpus trainiert wurde. Zudem haben jüngste Studien gezeigt, dass die kontinuierliche Vortrainierung auf domänenspezifischen Daten, wenn solche großen Korpora zur Verfügung stehen, die Leistung bei Aufgaben innerhalb der Domäne weiter steigern kann. Dieser Ansatz erfordert jedoch erhebliche domänenspezifische Daten und rechenintensive Ressourcen, die nicht immer verfügbar sind. In diesem Paper zielen wir darauf ab, ein generisches vortrainiertes Modell mit einer relativ geringen Menge an domänenspezifischen Daten anzupassen. Wir zeigen, dass die Leistung eines generischen vortrainierten Modells erheblich verbessert werden kann, indem explizit Informationen unterschiedlicher Granularität von unbekannten und domänenspezifischen Wörtern durch die Anpassung von (wortbasierten) n-Grammen integriert werden. Konkret führen wir einen Transformer-basierten domainbewussten N-gramm-Adaptor, T-DNA, ein, um effektiv die semantischen Repräsentationen verschiedener Wortkombinationen in der neuen Domäne zu lernen und zu integrieren. Experimentelle Ergebnisse belegen die Wirksamkeit von T-DNA bei acht Aufgaben mit geringen Ressourcen aus vier verschiedenen Domänen. Wir zeigen, dass T-DNA im Vergleich zu bestehenden Methoden auf den meisten Aufgaben signifikante Verbesserungen erzielt, wobei nur begrenzte Daten und geringere Rechenkosten erforderlich sind. Darüber hinaus unterstreichen weitere Analysen die Bedeutung und Effektivität sowohl von unbekannten Wörtern als auch von Informationen unterschiedlicher Granularität. Unser Code ist unter https://github.com/shizhediao/T-DNA verfügbar.