Vor-Training mit ganzwörtigem Maskieren für chinesisches BERT

Die bidirektionale Kodierungsdarstellung von Transformers (BERT) hat erstaunliche Verbesserungen bei verschiedenen NLP-Aufgaben gezeigt, und es wurden aufeinanderfolgende Varianten vorgeschlagen, um die Leistung der vorab trainierten Sprachmodelle weiter zu verbessern. In dieser Arbeit stellen wir zunächst die Strategie des ganzen Wortes Maskieren (wwm) für das chinesische BERT vor, zusammen mit einer Reihe von chinesischen vorab trainierten Sprachmodellen. Anschließend schlagen wir ein einfaches, aber effektives Modell namens MacBERT vor, das RoBERTa in mehreren Aspekten verbessert. Insbesondere schlagen wir eine neue Maskierungsstrategie vor, die als Korrektur-MLM (Mac) bezeichnet wird. Um die Effektivität dieser Modelle zu demonstrieren, erstellen wir eine Reihe von chinesischen vorab trainierten Sprachmodellen als Baseline, darunter BERT, RoBERTa, ELECTRA und RBT. Wir haben umfangreiche Experimente an zehn chinesischen NLP-Aufgaben durchgeführt, um sowohl die erstellten chinesischen vorab trainierten Sprachmodelle als auch das vorgeschlagene MacBERT zu evaluieren. Die experimentellen Ergebnisse zeigen, dass MacBERT auf vielen NLP-Aufgaben Spitzenleistungen erzielen kann. Zudem diskutieren wir detaillierte Analysen mit mehreren Erkenntnissen, die zukünftige Forschung unterstützen können. Wir stellen unsere vorab trainierten Sprachmodelle unter Open-Source-Lizenz zur Verfügung, um unsere Forschergemeinschaft weiter zu fördern. Ressourcen sind verfügbar: https://github.com/ymcui/Chinese-BERT-wwm