DocBERT: BERT für Dokumentenklassifizierung

Wir präsentieren, soweit wir wissen, die erste Anwendung von BERT auf die Dokumentenklassifizierung. Einige Merkmale der Aufgabe könnten dazu führen, dass man annimmt, BERT sei nicht das geeignetste Modell: Syntaxstrukturen sind für Inhaltskategorien weniger wichtig, Dokumente können häufig länger sein als typische BERT-Eingaben und Dokumente haben oft mehrere Labels. Trotzdem zeigen wir, dass ein einfaches Klassifikationsmodell mit BERT den aktuellen Stand der Technik in vier gängigen Datensätzen erreichen kann. Um die mit der Inferenz von BERT verbundenen Rechenkosten zu reduzieren, transferieren wir Wissen vom BERT-Large-Modell zu kleinen bidirektionalen LSTMs (Long Short-Term Memory), wodurch wir bei mehreren Datensätzen eine Leistung erreichen, die mit dem BERT-Base-Modell vergleichbar ist, aber mit 30-mal weniger Parametern. Der Hauptbeitrag unseres Artikels besteht in verbesserten Baselines, die als Grundlage für zukünftige Arbeiten dienen können.