vor 2 Monaten

Unüberwachtes grenzbewusstes Sprachmodell-Pretraining für die chinesische Sequenzmarkierung

Peijie Jiang; Dingkun Long; Yanzhao Zhang; Pengjun Xie; Meishan Zhang; Min Zhang

Abstract

Grenzinformationen sind für verschiedene chinesische Sprachverarbeitungsaufgaben von entscheidender Bedeutung, wie zum Beispiel die Wortsilbentrennung, die Wortart-Zuordnung und die Erkennung benannter Entitäten. Frühere Studien griffen in der Regel auf ein hochwertiges externes Lexikon zurück, bei dem Lexikoneinträge explizite Grenzinformationen liefern können. Um jedoch die Qualität des Lexikons zu gewährleisten, ist stets erheblicher menschlicher Aufwand erforderlich, was im Allgemeinen übersehen wird. In dieser Arbeit schlagen wir stattdessen unüberwachte statistische Grenzinformationen vor und präsentieren eine Architektur, die diese Informationen direkt in vortrainierte Sprachmodelle kodiert, was im Ergebnis das Boundary-Aware BERT (BABERT) hervorbringt. Wir wenden BABERT zur Merkmalsextraktion für chinesische Sequenzbeschriftungsaufgaben an. Experimentelle Ergebnisse anhand von zehn Benchmarks für chinesische Sequenzbeschriftung zeigen, dass BABERT konsistente Verbesserungen auf allen Datensätzen bieten kann. Darüber hinaus kann unsere Methode frühere überwachte Lexikonuntersuchungen ergänzen; durch die Integration von externen Lexikoninformationen können weitere Verbesserungen erreicht werden.