HyperAIHyperAI

Command Palette

Search for a command to run...

Unüberwachtes grenzbewusstes Sprachmodell-Pretraining für die chinesische Sequenzmarkierung

Peijie Jiang Dingkun Long Yanzhao Zhang Pengjun Xie Meishan Zhang Min Zhang

Zusammenfassung

Grenzinformationen sind für verschiedene chinesische Sprachverarbeitungsaufgaben von entscheidender Bedeutung, wie zum Beispiel die Wortsilbentrennung, die Wortart-Zuordnung und die Erkennung benannter Entitäten. Frühere Studien griffen in der Regel auf ein hochwertiges externes Lexikon zurück, bei dem Lexikoneinträge explizite Grenzinformationen liefern können. Um jedoch die Qualität des Lexikons zu gewährleisten, ist stets erheblicher menschlicher Aufwand erforderlich, was im Allgemeinen übersehen wird. In dieser Arbeit schlagen wir stattdessen unüberwachte statistische Grenzinformationen vor und präsentieren eine Architektur, die diese Informationen direkt in vortrainierte Sprachmodelle kodiert, was im Ergebnis das Boundary-Aware BERT (BABERT) hervorbringt. Wir wenden BABERT zur Merkmalsextraktion für chinesische Sequenzbeschriftungsaufgaben an. Experimentelle Ergebnisse anhand von zehn Benchmarks für chinesische Sequenzbeschriftung zeigen, dass BABERT konsistente Verbesserungen auf allen Datensätzen bieten kann. Darüber hinaus kann unsere Methode frühere überwachte Lexikonuntersuchungen ergänzen; durch die Integration von externen Lexikoninformationen können weitere Verbesserungen erreicht werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp