HyperAIHyperAI

Command Palette

Search for a command to run...

ZEN: Vorkommen von chinesischen Textencodern, die durch N-Gram-Darstellungen verbessert wurden

Shizhe Diao; Jiaxin Bai; Yan Song; Tong Zhang; Yonggang Wang

Zusammenfassung

Die Vorabausbildung von Textencodern verarbeitet normalerweise Text als Sequenz von Token, die kleinen Texteinheiten entsprechen, wie Wortteilen im Englischen und Zeichen im Chinesischen. Dabei wird die Information, die durch größere Textgranularität getragen wird, vernachlässigt, sodass die Encoder bestimmte Kombinationen von Zeichen nicht leicht anpassen können. Dies führt zu einem Verlust wichtiger semantischer Informationen, was insbesondere für das Chinesische problematisch ist, da diese Sprache keine expliziten Wortgrenzen hat. In dieser Arbeit schlagen wir ZEN vor, einen auf BERT basierenden chinesischen (Z) Textencoder, der durch N-Gram-Darstellungen (N-gram representations) erweitert wird. Dabei werden verschiedene Kombinationen von Zeichen während des Trainings berücksichtigt. Dadurch werden potentielle Wort- oder Phrasengrenzen explizit mit dem Zeichenencoder (BERT) vorab trainiert und feinjustiert. Somit vereint ZEN sowohl die umfassende Information der Zeichensequenz als auch der darin enthaltenen Wörter oder Phrasen. Experimentelle Ergebnisse verdeutlichen die Effektivität von ZEN bei einer Reihe von chinesischen NLP-Aufgaben. Wir zeigen, dass ZEN mit weniger Ressourcen als andere veröffentlichte Encoder in den meisten Aufgaben Spitzenleistungen erzielen kann. Darüber hinaus wird gezeigt, dass eine akzeptable Leistung erreicht werden kann, wenn ZEN auf einem kleinen Korpus trainiert wird, was für die Anwendung von Vorabtrainingsmethoden in Szenarien mit begrenzten Daten wichtig ist. Der Code und die vorab trainierten Modelle von ZEN sind unter https://github.com/sinovation/zen verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp