Pixel-basierte Sprachmodellierung

Sprachmodelle sind über einer endlichen Menge von Eingaben definiert, was bei der Skalierung der Anzahl unterstützter Sprachen zu einer Vokabular-Bottleneck-Situation führt. Die Bewältigung dieses Bottlenecks birgt einen Kompromiss zwischen der Darstellungsstärke in der Embedding-Matrix und rechnerischen Herausforderungen in der Ausgabeschicht. In dieser Arbeit stellen wir PIXEL, den Pixel-basierten Encoder für Sprache, vor, der beide Probleme nicht aufweist. PIXEL ist ein vortrainiertes Sprachmodell, das Text als Bilder darstellt, wodurch die Übertragung von Repräsentationen zwischen Sprachen aufgrund orthographischer Ähnlichkeit oder der gleichzeitigen Aktivierung von Pixeln möglich wird. Statt eine Verteilung über Token vorherzusagen, wird PIXEL darauf trainiert, die Pixel maskierter Bildpatches wiederherzustellen. Wir trainieren das 86-Millionen-Parameter-PIXEL-Modell an denselben englischen Daten wie BERT und evaluieren es auf syntaktischen und semantischen Aufgaben in typologisch vielfältigen Sprachen, einschließlich verschiedener nicht-lateinischer Schriftsysteme. Wir stellen fest, dass PIXEL auf syntaktischen und semantischen Aufgaben, die auf Schriftsystemen basieren, die nicht in den Trainingsdaten enthalten waren, erheblich besser abschneidet als BERT, während es bei der Verarbeitung lateinischer Schriftsysteme leicht schwächer ist als BERT. Darüber hinaus zeigen wir, dass PIXEL robuster gegenüber orthographischen Angriffen und sprachlicher Code-Switching ist, was die Vorteile der Modellierung von Sprache mittels Pixeln weiter unterstreicht.