ZEN: Vorkommen von chinesischen Textencodern, die durch N-Gram-Darstellungen verbessert wurden

Die Vorabausbildung von Textencodern verarbeitet normalerweise Text als Sequenz von Token, die kleinen Texteinheiten entsprechen, wie Wortteilen im Englischen und Zeichen im Chinesischen. Dabei wird die Information, die durch größere Textgranularität getragen wird, vernachlässigt, sodass die Encoder bestimmte Kombinationen von Zeichen nicht leicht anpassen können. Dies führt zu einem Verlust wichtiger semantischer Informationen, was insbesondere für das Chinesische problematisch ist, da diese Sprache keine expliziten Wortgrenzen hat. In dieser Arbeit schlagen wir ZEN vor, einen auf BERT basierenden chinesischen (Z) Textencoder, der durch N-Gram-Darstellungen (N-gram representations) erweitert wird. Dabei werden verschiedene Kombinationen von Zeichen während des Trainings berücksichtigt. Dadurch werden potentielle Wort- oder Phrasengrenzen explizit mit dem Zeichenencoder (BERT) vorab trainiert und feinjustiert. Somit vereint ZEN sowohl die umfassende Information der Zeichensequenz als auch der darin enthaltenen Wörter oder Phrasen. Experimentelle Ergebnisse verdeutlichen die Effektivität von ZEN bei einer Reihe von chinesischen NLP-Aufgaben. Wir zeigen, dass ZEN mit weniger Ressourcen als andere veröffentlichte Encoder in den meisten Aufgaben Spitzenleistungen erzielen kann. Darüber hinaus wird gezeigt, dass eine akzeptable Leistung erreicht werden kann, wenn ZEN auf einem kleinen Korpus trainiert wird, was für die Anwendung von Vorabtrainingsmethoden in Szenarien mit begrenzten Daten wichtig ist. Der Code und die vorab trainierten Modelle von ZEN sind unter https://github.com/sinovation/zen verfügbar.