CharacterBERT: Versöhnung von ELMo und BERT für wortbasierte offene Vokabularrepräsentationen aus Buchstaben

Aufgrund der überzeugenden Verbesserungen, die BERT mitgebracht hat, haben viele aktuelle Repräsentationsmodelle die Transformer-Architektur als ihren Hauptbaustein übernommen und damit das Wordpiece-Tokenisierungssystem geerbt, obwohl dieses nicht inhärent mit dem Konzept der Transformer verbunden ist. Während dieses System als eine gute Balance zwischen der Flexibilität von Buchstaben und der Effizienz ganzer Wörter gilt, ist die Verwendung vorgegebener Wordpiece-Vokabulare aus dem allgemeinen Bereich nicht immer geeignet, insbesondere bei der Erstellung von Modellen für spezialisierte Bereiche (z.B. den medizinischen Bereich). Darüber hinaus führt die Einführung des Wordpiece-Tokenisierungssystems den Fokus vom Wortniveau auf das Subworniveau, was die Modelle konzeptionell komplexer macht und in der Praxis möglicherweise weniger handlich ist. Aus diesen Gründen schlagen wir CharacterBERT vor, eine neue Variante von BERT, die das Wordpiece-System vollständig fallen lässt und stattdessen ein Character-CNN-Modul verwendet, um ganze Wörter durch ihre Buchstaben zu repräsentieren. Wir zeigen, dass dieses neue Modell die Leistung von BERT bei einer Vielzahl von Aufgaben im medizinischen Bereich verbessert und gleichzeitig robuste, wortbasierte und offene Vokabularrepräsentationen erzeugt.