Schnelle und genaue Entitätserkennung mit iterierten dilatierten Faltungen

Heute, da viele Praktiker grundlegende NLP-Anwendungen im gesamten Web und bei großen Datenmengen durchführen, sind schnellere Methoden von entscheidender Bedeutung, um Zeit- und Energiekosten zu sparen. Die jüngsten Fortschritte in der GPU-Hardware haben zur Einführung von bidirektionalen LSTMs (Long Short-Term Memory) als Standardmethode für die Erstellung von Token-Vektordarstellungen geführt, die als Eingabe für Klassifizierungsaufgaben wie Named Entity Recognition (NER) dienen (häufig gefolgt von einer Vorhersage in einem linearen Chain-CRF). Obwohl diese Modelle ausdrucksstark und genau sind, nutzen sie die parallele Verarbeitungsfähigkeit der GPU nicht vollständig, was ihre Rechenleistung einschränkt. In dieser Arbeit wird eine schnellere Alternative zu Bi-LSTMs für NER vorgeschlagen: Iterierte dilatierte Faltungsneuronale Netze (ID-CNNs), die eine bessere Kapazität als traditionelle CNNs (Convolutional Neural Networks) für große Kontexte und strukturierte Vorhersagen aufweisen. Im Gegensatz zu LSTMs, deren sequentielle Verarbeitung von Sätzen der Länge N selbst bei Parallelität O(N)-Zeit erfordert, ermöglichen ID-CNNs feste Tiefenfaltungen, die parallel über gesamte Dokumente laufen können. Wir beschreiben eine einzigartige Kombination aus Netzwerkstruktur, Parameterfreigabe und Trainingsverfahren, die drastische Testzeit-Geschwindigkeitsverbesserungen von 14-20-fach ermöglichen, während gleichzeitig eine Genauigkeit beibehalten wird, die mit der des Bi-LSTM-CRF vergleichbar ist. Zudem sind ID-CNNs, die trainiert wurden, den Kontext des gesamten Dokuments zu aggregieren, noch genauer und gleichzeitig 8-fach schneller in der Testzeit.