AlephBERT: Ein großes hebräisches Sprachmodell zur Vorabinitialisierung Ihrer hebräischen NLP-Anwendung

Große vortrainierte Sprachmodelle (PLMs) sind in der Entwicklung von Technologien zur Sprachverarbeitung weit verbreitet und bilden den Kern vieler künstlicher Intelligenz-Fortschritte. Während die Fortschritte bei der Verwendung von PLMs im Englischen beispiellos sind, gibt es für das Hebräische nur wenige Berichte über solche Fortschritte. Das Problem ist zweifach. Erstens stehen für das Training von NLP-Modellen im Hebräischen Ressourcen zur Verfügung, die nicht annähernd dem Umfang ihrer englischsprachigen Gegenstücke entsprechen. Zweitens gibt es keine anerkannten Aufgaben und Benchmarks, um den Fortschritt von hebräischen PLMs zu bewerten. In dieser Arbeit streben wir an, beide Aspekte zu verbessern. Erstens präsentieren wir AlephBERT, ein großes vortrainiertes Sprachmodell für Modernes Hebräisch, das auf einem größeren Wortschatz und einem größeren Datensatz als jedes vorherige hebräische PLM trainiert wurde. Zweitens erzielen wir mit AlephBERT neue Standarte-Ergebnisse in mehreren hebräischen Aufgaben und Benchmarks, darunter: Segmentierung, Teil-der-Rede-Tagging, vollständiges Morphotagging, Named-Entity-Erkennung und Sentimentanalyse. Wir stellen unser AlephBERT-Modell öffentlich zur Verfügung und bieten damit einen zentralen Zugangspunkt für die Entwicklung von hebräischen NLP-Anwendungen.